BugPhobia沟通篇章:Solr模式配置与数据导入调研
2015-12-14 13:04
495 查看
[b]0x01 [/b][b]:[/b]Scrum Meeting[b]特别说明[/b]
特别说明,考虑到编译原理课程考核的时间安排,每天开发时间急剧缩短以至于难以维系正常的Scrum Meeting,因此,将2015/12/13 00:00 A.M. ~ 2015/12/14 22:00 P.M.的Scrum Meeting合并,因此,第二次Scrum Meeting的开发时间为两天,此次将首先发布Solr模式配置与数据导入调研方便沟通工作的进一步开展
[b]0x01 [/b][b]:模式配置说明([/b]Schema.xml[b])[/b]
0x0100 :types段落定义
0x0104 :fileds段落定义
[b]0x02 [/b][b]:[/b]Solr[b]的数据导入方法[/b]
特别说明,考虑到编译原理课程考核的时间安排,每天开发时间急剧缩短以至于难以维系正常的Scrum Meeting,因此,将2015/12/13 00:00 A.M. ~ 2015/12/14 22:00 P.M.的Scrum Meeting合并,因此,第二次Scrum Meeting的开发时间为两天,此次将首先发布Solr模式配置与数据导入调研方便沟通工作的进一步开展
[b]0x01 [/b][b]:模式配置说明([/b]Schema.xml[b])[/b]
0x0100 :types段落定义
段落定义 | types段落,是一些常见的可重用定义,定义了 Solr(和 Lucene)如何处理 Field。也就是添加到索引中的xml文件属性中的类型,如int、text、date等. |
XML格式定义 | <fieldType name="string" class="solr.StrField" sortMissingLast="true"/> <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"/> |
段落定义 | Files段落,是添加到索引文件中出现的属性名称,而声明类型就需要用到上面的types |
固定字段说明 | <field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false"/> <field name="path" type="text_smartcn" indexed="false" stored="true" multiValued="false" termVector="true" /> <field name="content" type="text_smartcn" indexed="false" stored="true" multiValued="false" termVector="true"/> |
动态字段说明 (dynamicField) | 动态的字段设置,用于后期自定义字段,*号通配符.例如: test_i就是int类型的动态字段. <dynamicField name="*_i" type="int" indexed="true" stored="true"/> <dynamicField name="*_l" type="long" indexed="true" stored="true"/> <dynamicField name="*_s" type="string" indexed="true" stored="true" /> |
特殊字段说明 (copyField) | 一般用于检索时用的字段这样就只对这一个字段进行索引分词就行了copyField的dest字段如果有多个source一定要设置multiValued=true,否则会报错的 <copyField source="content" dest="pinyin"/> <copyField source="content" dest="text"/> <copyField source="pinyin" dest="text"/> |
方法概述 | 使用自带的post.jar工具,需要提前自己定义好需要上传文件的格式 特别说明:最好是以XML或者是json的格式,似乎可以是pdf,以及txt等格式,如上面所述,但是这一部分确实可以上传,但是在后续的搜索的过程中找不到相应的数据,需要进一步的研究,但是XML以及json的格式一定是没有问题了。 |
具体操作方法 (更多详细的使用细则可翻阅Solr教程P152) | n Automatically detect the content type based on the file extension. java -Dauto=yes -jar post.jar a.pdf n Automatically detect content types in a folder, and recursively scan it for documents. java -Dauto=yes -Drecursive=yes -jar post.jar afolder n Automatically detect content types in a folder, but limit it to PPT and HTML files. java -Dauto=yes -Dfiletypes=ppt,html -jar post.jar afolder |
方法概述 | 使用用户界面进行数据的导入 特别说明:Solr本身的用户界面非常友好,可以自行探索并使用 |
方法概述 | 我在调研的时候使用的是pysolr,是基于Python的,其实还有solrj是基于java的后者没有调研过,但是前者调研过感觉还不错,增删改查都能做,还不错。 教程网址:https://pypi.python.org/pypi/pysolr/3.2.0 |
相关文章推荐
- Bootstrap3.0入门学习系列教程
- 使用webview与native 应用做交互的时候出现警告
- 总结JSP与servlet之间的传值
- vmware虚拟机guest系统重启后获得169.254.X.X的ip解决方法
- Temporary table space group 临时表空间组详解
- AJAX的使用详解(javascript实现)
- Map集合排序
- 树莓派系统安装和调试
- python 字符串替换
- Java 删除文件夹和子文件夹中的所有文件
- libtidy,htmlcxx-优秀的html解析库介绍
- Bug for heat template: ResourceGroup中的refs属性不支持索引
- 基于STM32Cube的IIC主从通信
- 在线音乐迎来大变局 掘金粉丝各出奇招
- JS操作DOM元素属性和方法
- 杭电4561 连续最大积
- 分解正整数的质因数
- spring @Scheduled用法
- JS修改CSS的三种方式
- mt6572 开发板环境建立笔记