您的位置：首页 > 其它

lucene打分公式

2017-02-27 18:04 183 查看

lucene利用余弦相似度进行计算，并进行了改进

coord(q,d):文档d匹配q的词越多，此值越大，在查询的时候计算的，匹配的词/查询的总词数（可能不一样）

queryNorm(q):是一个归一化的因子，使得两个分数之间可以比较，默认计算公式如下：

tf(tin d):和词频相关，t出现在d中的词数，tf(t in q)是1，因为如果一个查询q包含两个相同的t，在公式中会计算两次，因此这也是对的，默认的计算公式如下：

idf(t):逆向文档频率，比较稀罕的词，此值越大，在q和d中此值是一样的，默认的公式如下：

t.getBoost():查询q中词(term)的加权，通过BoostQuery设置此值，在多词查询中，不能直接获取此值，多词查询时通过多个TermQuery合并查询的，所以可以通过BoostQuery获取

norm(t,d):该值组合了几个boost和长度因子：

field boost，在把字段加入到文档前，通过field.setBoost()设置

lengthNorm: lucene索引多个filed,每个字段域field都是独立索引，此值是此filed的内容的长度，同一个文档可以添加相同的filed（内容可以不一样）,每个filed可以设置不同值，计算时相乘（匹配了多少个filed，相乘多少次）

一个文档的norm(t,d)的计算公式如下

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航