您的位置:首页 > 其它

简单分析百度中文分词技术

2012-06-15 21:18 267 查看
百度为了能在千万亿页面数据量中更快更好的为用户检索信息,因此拥有一套非常好的中文分词算法,利用好百度分词技术,通过提高关键词与搜索之间的匹配度,从而得到更多高转化率流量,对我们这些站长来说非常有用。

百度中文分词与其他中文分词一样,都分为三大分类:基于字符串匹配的方法、基于理解的分词方法、基于统计的分词方法。

1、基于字符串匹配方法:完全匹配,比如说“奥康皮鞋”,这类词百度是不进行切词的,搜索词与我们的网站标题完全匹配,而且网站在有了一定的权重之后就会有好的排名,自然也会有流量。



2、基于理解的分词方法:比如说我们搜索“奥康皮鞋加盟”,百度分词技术将“奥康皮鞋加盟”分成“奥康皮鞋”、“奥康”、“奥康加盟”、“皮鞋加盟”,除去百度知道不算之外,前三条中只有第一和第三条是与搜索词完全匹配,而第二条则是高度匹配,对于长尾关键词来说,完全匹配可能性小,都是高度匹配的页面出现在前面。如果关键词不能做到与搜索完全匹配,要认真的分析用户搜索习惯,做到关键词与搜索词高度匹配,这样获取的流量就越多。

 


3、基于统计的分词方法:搜索“淘宝网开店奥康皮鞋”,搜索出的结果都不完整,标题与关键词的匹配度相差很大,为什么会这样?根据笔者了解,用户在搜索某个关键词时,搜索引擎首先要检索与搜索词完全匹配的标题,再是高度匹配的标题,最后才进行模糊匹配,进行匹配之后再结合网站权重给页面排名,我们在做seo优化时可利用这点分词原理获取更多的流量。

 


 

以上是笔者分析的三种百度中文分词原理,也不全对,希望对大家理解百度中文分词有帮助。

 

原文地址:http://www.qingdaosem.com/xinwenzhongxin/qdseo/seojq/316.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息