ElasticSearch学习20_Lucene4基础概念-Elasticsearch深入
2016-11-30 18:48
274 查看
学习Lucene是为了更深入搜索,学习Lucene4是为了弄懂ES中没有解释的疑问,等看完Lucene,才发现,搜索的核心原来都是Lucene,Elasticsearch只不过是包在Lucene外面的一层皮。
Lucene是一个搜索引擎包,它并非一个像tomcat一样的产品。它衍生出了solr和elasticsearch。当然,我学习的是后者。solr是apache孵化的一个搜索引擎。
马XX说过,学习是一个概念,判断,推理的过程,现在想想,老人家说的很多话,还真是那么回事。下面就是Lucene4中的一些基础核心概念。
索引(Index)
对应一个倒排表,一个检索的基本单位。在lucene中就对应一个目录。
段(Segment)
一个索引可以包含多个段,段与段之间是独立的,添加新文档可以生成新的段,不同的段可以合并。段是索引数据存储的单元。
文档(Document)
•文档是我们建索引的基本单位,不同的文档是保存在不同的段中的,一个段可以包含多篇文档。
•新添加的文档是单独保存在一个新生成的段中,随着段的合并,不同的文档合并到同一个段中。
域(Field)
•一篇文档包含不同类型的信息,可以分开索引,比如标题,时间,正文,作者等,都可以保存在不同的域里。
•不同域的索引方式可以不同。
词(Term)
词是索引的最小单位,是经过词法分析和语言处理后的字符串。
词相同,但域不同被认为是两个不同的词,也就是说词是词根和域名的一个组合。
词向量(Term Vector)
又称文档向量(document vector),由词文本和词频率组成。
语义树
语义树是构成搜索处理的一个中间结果,搜索时,会生成语义树,然后再进行搜索。
权重(Term Weight)
计算分值时使用的主要指标,指词(Term)在文档中的分值,脱离文档单独说某个词的权重是没有意义的。
Term Frequency (tf):即此Term 在此文档中出现了多少次。tf 越大说明越重要。
Document Frequency (df):即有多少文档包含次Term。df 越大说明越不重要 。
Posting
一般情况下,将一个词条所索引的文档(一般用文档编号表示)称之为 Posting,那么一个词条索引的多个文档就称之为 Posting-list。这个词我们在看java api的时候会经常看到
Payload
即词条 (Term) 的元数据或称载荷, Lucene 支持用户在索引的过程中将词条的元数据添加的索引库中,同时也提供了在检索结果时读取 Payload 信息的功能。Payload 的诞生为用户提供了一种可灵活配置的高级索引技术,为支持更加丰富的搜索体验创造了条件。
倒排表(Inverted Indexing)
倒排表是Lucene索引采用的一套数据结构,这种结构以词为中心,能够快速找到包含该词根的文档。因为跟正常的遍历文档检索采用的方法相反,采用先匹配词,在去找包含词的文档,因此叫倒排表。倒排表是一种数据结构,lucene的数据文件一起构成了一张大的倒排表,而不是具体的某文件存储的倒排结构。
文档编号(Document Number)
Lucene内部通过文档编号索引文档。这个编号在一个段内部唯一,一个段的第一个文档的编号为0,依次递增。不过这个编号仅用于lucene内部使用,而且这个编号在段合并的时候会发生改变。如果需要在段外部使用,必须对这个编号进行唯一性重新编排,确保一个文档在更大的范围也是唯一的。重新编排的一个实现方法是,基数+段内序号的方法。比如有两个段,每个段里面都有5个文档,则第一个段的文档编号=0+段内编号,第二个段的文档编号=5+段内编号。
请支持原创:
更多elasticsearch,请参考:http://www.iteye.com/blogs/subjects/elasticsearch-tutor
对这类话题感兴趣?欢迎发送邮件至donlianli@126.com
关于我:邯郸人,擅长Java,Javascript,Extjs,oracle sql。
更多我之前的文章,可以访问 我的空间
原文来自:http://donlianli.iteye.com/blog/1976024?utm_source=tuicool&utm_medium=referral
Lucene是一个搜索引擎包,它并非一个像tomcat一样的产品。它衍生出了solr和elasticsearch。当然,我学习的是后者。solr是apache孵化的一个搜索引擎。
马XX说过,学习是一个概念,判断,推理的过程,现在想想,老人家说的很多话,还真是那么回事。下面就是Lucene4中的一些基础核心概念。
索引(Index)
对应一个倒排表,一个检索的基本单位。在lucene中就对应一个目录。
段(Segment)
一个索引可以包含多个段,段与段之间是独立的,添加新文档可以生成新的段,不同的段可以合并。段是索引数据存储的单元。
文档(Document)
•文档是我们建索引的基本单位,不同的文档是保存在不同的段中的,一个段可以包含多篇文档。
•新添加的文档是单独保存在一个新生成的段中,随着段的合并,不同的文档合并到同一个段中。
域(Field)
•一篇文档包含不同类型的信息,可以分开索引,比如标题,时间,正文,作者等,都可以保存在不同的域里。
•不同域的索引方式可以不同。
词(Term)
词是索引的最小单位,是经过词法分析和语言处理后的字符串。
词相同,但域不同被认为是两个不同的词,也就是说词是词根和域名的一个组合。
词向量(Term Vector)
又称文档向量(document vector),由词文本和词频率组成。
语义树
语义树是构成搜索处理的一个中间结果,搜索时,会生成语义树,然后再进行搜索。
权重(Term Weight)
计算分值时使用的主要指标,指词(Term)在文档中的分值,脱离文档单独说某个词的权重是没有意义的。
Term Frequency (tf):即此Term 在此文档中出现了多少次。tf 越大说明越重要。
Document Frequency (df):即有多少文档包含次Term。df 越大说明越不重要 。
Posting
一般情况下,将一个词条所索引的文档(一般用文档编号表示)称之为 Posting,那么一个词条索引的多个文档就称之为 Posting-list。这个词我们在看java api的时候会经常看到
Payload
即词条 (Term) 的元数据或称载荷, Lucene 支持用户在索引的过程中将词条的元数据添加的索引库中,同时也提供了在检索结果时读取 Payload 信息的功能。Payload 的诞生为用户提供了一种可灵活配置的高级索引技术,为支持更加丰富的搜索体验创造了条件。
倒排表(Inverted Indexing)
倒排表是Lucene索引采用的一套数据结构,这种结构以词为中心,能够快速找到包含该词根的文档。因为跟正常的遍历文档检索采用的方法相反,采用先匹配词,在去找包含词的文档,因此叫倒排表。倒排表是一种数据结构,lucene的数据文件一起构成了一张大的倒排表,而不是具体的某文件存储的倒排结构。
文档编号(Document Number)
Lucene内部通过文档编号索引文档。这个编号在一个段内部唯一,一个段的第一个文档的编号为0,依次递增。不过这个编号仅用于lucene内部使用,而且这个编号在段合并的时候会发生改变。如果需要在段外部使用,必须对这个编号进行唯一性重新编排,确保一个文档在更大的范围也是唯一的。重新编排的一个实现方法是,基数+段内序号的方法。比如有两个段,每个段里面都有5个文档,则第一个段的文档编号=0+段内编号,第二个段的文档编号=5+段内编号。
请支持原创:
http://donlianli.iteye.com/blog/1976024
更多elasticsearch,请参考:http://www.iteye.com/blogs/subjects/elasticsearch-tutor对这类话题感兴趣?欢迎发送邮件至donlianli@126.com
关于我:邯郸人,擅长Java,Javascript,Extjs,oracle sql。
更多我之前的文章,可以访问 我的空间
原文来自:http://donlianli.iteye.com/blog/1976024?utm_source=tuicool&utm_medium=referral
相关文章推荐
- lucene学习之基础概念
- lucene和elasticsearch的前世今生、elasticsearch的核心概念、elasticsearch核心概念 vs. 数据库核心概念(来自学习资料)
- Lucene4基础概念-Elasticsearch深入
- elasticsearch (基于Lucene的搜索服务器,分布式,restful接口) 基础概念
- ElasticSearch学习 - (四)ElasticSearch基础概念
- ElasticSearch 基础概念学习(未完)
- http协议学习 - 基础概念篇
- 基础学习--表的概念(一)
- Ethan学习笔记 – ERP的基础概念(1)
- SilkTest 学习整理(1)基础概念
- 循环控制结构程序05 - 零基础入门学习C语言20
- D3D学习总结基础篇(二)--从古墓丽影的画面设置了解基础概念
- java 程序运行原理和基础概念学习
- 最近学习Lucene,在别人基础上,做了一个小例子
- C++学习笔记4-----类的继承基础概念
- C#基础概念学习笔记
- Visual C# 技术内幕学习笔记 第二章 C#基础(1) 几个概念
- 学习Java的30个基本概念-Java基础-Java-编程开发
- C#学习基础概念二十五问 11-15
- 通信基础学习------《通信原理》+ 《GSM原理及网络优化》 读书笔记之一 —— 基本概念