[关闭]
@Jeremy 2014-10-13T13:09:11.000000Z 字数 6438 阅读 7232

信息检索-笔记

读书笔记 信息检索


第一章 布尔检索


第二章 词项词典及倒排记录表


第三章 词典及容错式检索


第四章 索引构建


第五章 索引压缩


第六章 文档评分、词项权重计算及向量空间建模

  1. CosineScore(q)
  2. float Scores[0]=0
  3. Initialize Length[N]
  4. for each query term t
  5. do calculate w_tq and fetch posting list for t
  6. for each pair(d,tf_td) in postings list
  7. do Scores[d] += wf_td*w_tq
  8. Read the array Length[d]
  9. for each d
  10. do Scores[d] = Scores[d]/Length[d]
  11. return Top K components of Scores[]

第七章 一个完整搜索系统中的评分计算


第八章 信息检索的评价

分类 相关(relevant) 不相关(nonrelevant)
返回 真正例(true positives,tp) 伪正例(false positives,fp)
未返回 伪反例(false negatives,fp) 真反例(true negatives,tn)

P=tp/(tp+fp)
R=tp/(tp+fn)
精确率:文档集中所有判断正确的文档所占的比例,计算公式为: (tp+tn)/(tp+fp+fn+tn)
一个融合了正确率和召回率的指标是F值:

Fβ=1=2PRP+R

β=1时,表示正确率和召回率的权重相等,β<1表示强调正确率,β>1表示强调召回率


第九章 相关反馈及查询扩展

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注