Lucene/Solr打分机制的分析
2014-03-20 18:26
155 查看
tf.idf模型
tf - 项频率 指一个项在一个文档中出现的次数。 出现越多,文档得分越高。(正比)
idf - 项在倒排文档中出现的频率 指一个项在索引中的所有文档间出现的次数。(一个文档里出现次数只计一次) 出现越多次,对文档得分贡献越少(反比)
coord - 协调因子 一个文档中包含越多的查询项,文档得分就越高。(正比)
fieldNorm - 域长度 域越短,则加权越大。(反比)
文档的得分与Query, 文档的索引方式相关。原始得分需要做归一化处理。比如除以最大文档得分,使得得分区间落在0与1.0之间。
tf - 项频率 指一个项在一个文档中出现的次数。 出现越多,文档得分越高。(正比)
idf - 项在倒排文档中出现的频率 指一个项在索引中的所有文档间出现的次数。(一个文档里出现次数只计一次) 出现越多次,对文档得分贡献越少(反比)
coord - 协调因子 一个文档中包含越多的查询项,文档得分就越高。(正比)
fieldNorm - 域长度 域越短,则加权越大。(反比)
文档的得分与Query, 文档的索引方式相关。原始得分需要做归一化处理。比如除以最大文档得分,使得得分区间落在0与1.0之间。
相关文章推荐
- Lucene/Solr打分机制的分析(二)
- 结合源码分析Solr&Lucene查询打分的工作流程
- 有关Lucene的问题(3): 向量空间模型与Lucene的打分机制
- 使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析
- 为什么使用solr----solr与Lucene比较及solr 的结构分析
- Solr4.8.0源码分析(13)之LuceneCore的索引修复
- 为什么使用solr----solr与Lucene比较及solr 的结构分析
- Solr4.8.0源码分析(11)之Lucene的索引文件(4)
- SolrLucene优劣势分析
- lucene打分机制
- Lucene/Solr/ElasticSearch搜索问题案例分析
- Solr4.8.0源码分析(12)之Lucene的索引文件(5)
- Solr4.8.0源码分析(9)之Lucene的索引文件(2)
- 有关Lucene的问题(3): 向量空间模型与Lucene的打分机制
- 【转载】SolrLucene优劣势分析
- Nutch/Lucene的存取机制与结构分析
- Nutch/Lucene的存取机制与结构分析(收藏)
- Solr4.8.0源码分析(18)之缓存机制(一)
- Solr4.8.0源码分析(19)之缓存机制(二)
- 有关Lucene的问题(3): 向量空间模型与Lucene的打分机制