实战:考虑性能--Solr索引的schema设计
2016-12-22 15:48
183 查看
从 high level 的角度来看,schema.xml 结果如下,这个例子虽然不是一个真实的XML,但是简洁明了的传达了shema的概念。
绝大部分设计工作和内容都在types和fields中,这两个元素定义了索引的字段和类型,再辅以copyField。夹在copyField和fileds之间的是uniqueKey, defaultSearchField和defaultQueryOperator。
频繁范围查询字段:如寻找price在[300,500]之间的记录,使用默认precisionStep或者设置precisionStep="8"(默认值),这样能提高查询性能,同时代价是索引的size会有一点额外增加。
搜索引擎用户不会希望自己输入field_name:value这种查询条件,更多时候,他们不关注fieldName。可以copy其他field的值到text字段中。搜索时,用户指定value,页面可以直接通过q查询,这也是大多数搜索引擎的搜索方法。
技巧2:同一个值存不同形式。
假设你有一个名为author的field,同时需要满足按作者搜索和按第一作者做facet。如下:
Schildt, Herbert; Wolpert, Lewis; Davies, P.
1)按作者搜索场景,copy到textField类型,使用解析器lowCase+除去标点。
schildt herbert wolpert lewis davies p
2)facet场景,copy第一作者到string类型:
Schildt, Herber
如果该字段同时需要作为查询条件,indexed设置为true。
<schema> <types> <fields> <uniqueKey> <defaultSearchField> <solrQueryParser defaultOperator> <copyField> </schema>
绝大部分设计工作和内容都在types和fields中,这两个元素定义了索引的字段和类型,再辅以copyField。夹在copyField和fileds之间的是uniqueKey, defaultSearchField和defaultQueryOperator。
1.选择合适的数字类型。
一般数字字段:使用TrieIntField TrieLongField TrieFloatField TrieDoubleField 配置 precisionStep="0"。频繁范围查询字段:如寻找price在[300,500]之间的记录,使用默认precisionStep或者设置precisionStep="8"(默认值),这样能提高查询性能,同时代价是索引的size会有一点额外增加。
2.处理文本。
技巧1:通过copyField定义通用field。搜索引擎用户不会希望自己输入field_name:value这种查询条件,更多时候,他们不关注fieldName。可以copy其他field的值到text字段中。搜索时,用户指定value,页面可以直接通过q查询,这也是大多数搜索引擎的搜索方法。
<copyField source="name" dest="text" maxChars="25000" /> <copyField source="feature" dest="text" maxChars="25000" />
技巧2:同一个值存不同形式。
假设你有一个名为author的field,同时需要满足按作者搜索和按第一作者做facet。如下:
Schildt, Herbert; Wolpert, Lewis; Davies, P.
1)按作者搜索场景,copy到textField类型,使用解析器lowCase+除去标点。
schildt herbert wolpert lewis davies p
2)facet场景,copy第一作者到string类型:
Schildt, Herber
3.Facet字段使用DocValues。
<field name="manu_exact" type="string" indexed="false" stored="false" docValues="true"/>
如果该字段同时需要作为查询条件,indexed设置为true。
相关文章推荐
- SuperSlide插件轮播图展示
- chrome浏览器限制的端口
- Greenplum——升级的分布式PostgresSQL
- HelloWorld opengl文字显示
- Selenium WebDriver 中鼠标和键盘事件分析及扩展
- Webcollector爬虫
- logback 配置详解
- arp欺骗
- 三次握手四次挥手
- ios开发--RunLoop 与GCD 、Autorelease Pool之间的关系
- JavaMail入门教程之接收邮件(4)
- SQL Server T-SQL高级查询
- 给tomcat单独配置jdk
- 第一章 Java的I/O演进之路
- js基础参数获取
- 迭代器模式
- Swift运算符操作
- C++ static_cast
- tcp协议
- JS之歪门绝技