Elasticsearch 相同内容文档,不同score(评分)的奇怪问题
2015-11-29 21:00
288 查看
原文:http://stackoverflow.com/questions/14580752/elasticsearch-gives-different-scores-for-same-documents
由于每个shard是一个独立的lucene 实例,所以TF/IDF也是独立计算的,每个分片的文章数量不同
如果两个相同内容落在了不同分片上,完全可能给出不同的评分
所以确保每个分片上有足够多的文章来减少评分在这种差异上的干扰
本地进行score的测试的时候,可以用单分片 + 0 备份来避免干扰,因为本地测试数据往往很少,一点点的干扰都会放大好几倍
由于每个shard是一个独立的lucene 实例,所以TF/IDF也是独立计算的,每个分片的文章数量不同
如果两个相同内容落在了不同分片上,完全可能给出不同的评分
所以确保每个分片上有足够多的文章来减少评分在这种差异上的干扰
本地进行score的测试的时候,可以用单分片 + 0 备份来避免干扰,因为本地测试数据往往很少,一点点的干扰都会放大好几倍
如果我要放多一点数据来避免,那最多可以放多少呢?
在githup上面有另外一个讨论关于一个分片应该要放多少数据?其中一个回答就用了类似方法,建立单个分片 + 0 备份,不断增加文档数量并测试查询速度,直到超过预期的延迟,比如200ms。这就是上限。相关文章推荐
- compareTo()函数,Comparable()函数在TreeSet中的使用
- hdu 2066 一个人的旅行(最短路径 Dijkstra算法)
- PS: Going Deeper With Convolutions___CVPR2015
- 使用ScriptX控件进行Web打印IIS服务器始终弹出打印机选择的问题
- min-width和max-width的兼容问题
- C# 的 Socket基本编程例子
- homerHEVC代码阅读(1)——参数解析
- Objective-C 继承和多态
- MFC笔记7
- Mac 安装 Jenkins
- 对链式队列结构实现的探讨
- ArrayList.asList()函数
- 解决ubuntu 15.04不能看avi格式的问题
- 相机曝光与增益
- 有2n+1个数,其中有2n个数出现过两次,找出其中只出现一次的数
- 【Win10 UWP】微信SDK基本使用方法和基本原理
- 20135220谈愈敏--信息安全系统设计基础第十周学习总结
- ubuntu默认开启numlock
- sizeof和strlen的区别
- 从零开始写javaweb框架笔记6-需求分析与系统设计