您的位置：首页 > 其它

lucene原理学习笔记（二）

2015-06-28 22:33 162 查看

上一篇文章介绍了Lucene的索引结果以及建立索引的步骤，这篇文章就介绍一下如何搜索索引。

第一步，用户输入查询语句。

第二步，对查询语句进行词法分析、语法分析以及语言处理。

1、词法分析主要用来识别单词和关键字。

2、语法分析主要根据查询语句的语法规则来形成一棵语法树。

3、语言处理同索引过程中的语言处理几乎一致，比如词根的处理。

第三步，搜索索引，得到符合语法树的文档。

第四步，计算得到的文档和查询之间的相关性，对查询结果进行排序。

如何来计算文档和查询之间的相关性呢？在此做一个假设，我们将查询看作是一个很短小的文档，这样就变成计算文档和文档之间的相关性了，计算出来的分数越高就说明越相关，排序就越靠前。

那么如何计算文档和文档之间的相关性呢？进过分析可以发现，文档是由很多词（Term）组成的，如lucene、solr、search等，进一步分析还可以发现不同的词对文档的重要性是不一样的，比如对一个文档solr和search在这个文档中是很重要的，但是this、what和a则显得不那么重要。所以对于两篇文档来说如果同时包含solr和search则说明这两篇文档相关性比较高，即使文档中不包含this、what也不会影响到文档的相关性。

因此计算文档的相关性，首先要找出那些词对文档之间的关系比较重要，比如solr和search，然后计算词之间的关系，找出词重要性的过程可以称为计算词在文档中的权重。

计算词的权重，有两个参数，第一个是词（Term），第二个是文档（Document）。词的权重代表词在文档中的重要程度，权重越大，越能影响文档之间的相关性。判断词之间的相关性从而得出文档之间的相关性，有一种方法叫做向量空间模型（Vector Space Model）。

下面就分析一下计算词的权重的过程，

影响一个词在文档中重要性的主要因素有两个。

1：词频，即词出现在文档中的次数，数值越大说明重要性越大。

2：文档频率，即有多少个文档包含此词，这个数值越大说明词的重要性越小，因为这样就无法区分不同的文档了，因此重要性就很低。

计算权重的公式如下图

上面的公式只是计算词的权重的典型实现，不同的搜索引擎可以有不同的实现。

通过上面计算出来的词的权重，计算词之间的关系从而得出文档的相关性，也就是应用空间向量模型方法。

把文档分解成是由多个词组成的，不同词的权重在所在文档中计算，由此我们可以把词的权重看作是向量。

Document={term1,term2,...,termn}

Document Vector={weight1,weight2,...,weightn}

同样的道理我们可以把用户的查询语句看作是向量

Query={term1,term2,...,termn}

Query Vector={weight1,weight2,...,weightn}

然后把搜索出来的文档向量和查询向量放到一个N维空间中，每一个词是一个向量，如下图所示

在这里我们认为向量之间的夹角越小，相关性越大。我们用夹角之间的余弦值计算向量之间的相关性，余弦值越大，夹角越小，相关性越大。计算余弦值得公式如下图

通过计算出来的余弦值进行排序，查询出来的文档就可以按相关性显示出来了，越在前面说明相关性越大。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航