您的位置:首页 > 其它

lucene打分公式

2017-02-27 18:04 183 查看
lucene利用余弦相似度进行计算,并进行了改进

coord(q,d):文档d匹配q的词越多,此值越大,在查询的时候计算的,匹配的词/查询的总词数(可能不一样)

queryNorm(q):是一个归一化的因子,使得两个分数之间可以比较,默认计算公式如下:

tf(tin d):和词频相关,t出现在d中的词数,tf(t in q)是1,因为如果一个查询q包含两个相同的t,在公式中会计算两次,因此这也是对的,默认的计算公式如下:

idf(t):逆向文档频率,比较稀罕的词,此值越大,在q和d中此值是一样的,默认的公式如下:

t.getBoost():查询q中词(term)的加权,通过BoostQuery设置此值,在多词查询中,不能直接获取此值,多词查询时通过多个TermQuery合并查询的,所以可以通过BoostQuery获取

norm(t,d):该值组合了几个boost和长度因子:

field boost,在把字段加入到文档前,通过field.setBoost()设置

lengthNorm: lucene索引多个filed,每个字段域field都是独立索引,此值是此filed的内容的长度,同一个文档可以添加相同的filed(内容可以不一样),每个filed可以设置不同值,计算时相乘(匹配了多少个filed,相乘多少次)

一个文档的norm(t,d)的计算公式如下
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: