您的位置：首页 > 其它

搜索核心原理之网页和查询的相关性——TF-IDF

2017-01-16 15:15 253 查看

1.相关性的演进：

i.单文本词频TF（Term Frequency）
用关键词的出现的次数除以文章的总次数，做归一化处理得到TF，来屏蔽文章长度对用关键词出现次数来衡量相关性时的影响

ii.搜索关键词权重的度量IDF：

需要给每个此赋以权重，来区分查询中词的重要性：
a.一个词预测主题的能力越强，其权重越大
b.停止词（的是和这类无用词）的权重为0

逆文本频率指数IDF（Inverse Document Frequency）：公式为log(D/Dw)，其中一个关键词在Dw个网页中出现过，Dw越大，词w的权重越小

iii.相关性的度量（TF-IDF：Term Frequency/Inverse Document Frequency）：
词频的加权求和：∑TF(w)*IDF(w)

2.TF-IDF的信息量依据
i.查询中每个关键词w的权重应该反映这个词对这个查询提供了多少信息，用此的信息量来作为权重：
I(w)=-P(w)logP(w)=-(TF(w)/N)*log(TF(w)/N)
而语料库此的总数N是一定的，所以I(w)=-TF(w)*log(TF(w)/N)
漏洞：一个词在一篇文献中出现TF次和一个词在所有文献中出现TF次，信息量是一样的

ii.提出假设：
a.每篇文章的大小基本相同，均为M个词，M=N/D
b.假设在一篇文章中关键词出现的次数，与其贡献无关，那么一个词在一篇文献中出现的平均次数C(w)=TF(w)/D(w)，C(w)<M

则-TF(w)*log(TF(w)/N)=TF(w)*log(N/TF(w))=TF(w)*log(MD/C(w)D(w))=TF(w)*log(D/D(w))+TF(w)*log(M/C(w))
即I(w)=TF-IDF+TF(w)*log(M/C(w))，有TF-IDF=I(w)-TF(w)*log(M/C(w))
显然，IDF与词的信息量成正比，同时在w命中的文献中w出现的平均次数越多，C(w)越小，贡献越大

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航