您的位置:首页 > 其它

中文分词方法

2009-03-05 10:09 176 查看
中文分词方法大体归结为两大类,一类是无词典的,一类是有词典的

一、对于无词典的,算法主要是n元分词,比如n=2,就是两两分词,对于"我爱北京天安门"这句话,分词的结果是 "我爱 爱北 北京 京天 天安 安门"

优点:无需词典

缺点:产生大量无用词,而且n的数值不好把握,当n=2时放过了一些3元或4元词

这种方法对查询进行分词还可以,但对建倒排索引非常不可取

二。有词典,方法大体有三

1.前向最大匹配

2。逆向最大匹配

3。词频统计

前向最大匹配就是,从前往后对一个句子进行取词,然后去词典查找有没有,有则分词成功,无则减小这个词,继续去词典查找,例子。对于"我爱北京天安门",首先取"我爱北京"(汉字最大词长一般是4个),去词典中没找到,然后去掉京,变为"我爱北",又没找到,再去掉北,变成"我爱",还没找到,去掉爱,还没找到,只剩下一个我了,那么我这个单字就是一个词了,分好了一个词,继续走,取"爱北京天",继续前面的步骤,得到爱,继续取"北京天安",这次得到的结果是北京,向后移动两个指针,继续取"天安门",如果在词典中找到了"天安门",分词结束。。得到的结果是"我 爱 北京 天安门";

逆向最大匹配是相反的过程,就是从句子后面向前走,比如先取"京天安门",词典中没找到去掉京,剩"天安门",找到,往前移动3个指针,取"我爱北京",go one

词频统计就是说,基于人们的使用经验,看看哪种分词法组成的词频最大,默认为最好的分词

具体就是1。先进行粗分,得到很多个组合,形成一个N-gram图,然后计算每条路径的权重(就是路径上每个词在字典中词频数之和),用n-shortest算法计算得到权重最大的路径,就是最优分词法,据统计这种分词法可达到97%的正确率

当然除了这些分词法之外,还有许多需要注意的地方,比如未登录词识别,词典组织(一般用Trie)等
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: