您的位置：首页 > 其它

中文分词方法

2009-03-05 10:09 176 查看

中文分词方法大体归结为两大类，一类是无词典的，一类是有词典的

一、对于无词典的，算法主要是n元分词，比如n=2,就是两两分词，对于"我爱北京天安门"这句话，分词的结果是 "我爱爱北北京京天天安安门"

优点:无需词典

缺点：产生大量无用词，而且n的数值不好把握，当n=2时放过了一些3元或4元词

这种方法对查询进行分词还可以，但对建倒排索引非常不可取

二。有词典，方法大体有三

1.前向最大匹配

2。逆向最大匹配

3。词频统计

前向最大匹配就是，从前往后对一个句子进行取词，然后去词典查找有没有，有则分词成功，无则减小这个词，继续去词典查找，例子。对于"我爱北京天安门"，首先取"我爱北京"(汉字最大词长一般是4个)，去词典中没找到，然后去掉京，变为"我爱北"，又没找到，再去掉北，变成"我爱"，还没找到，去掉爱，还没找到，只剩下一个我了，那么我这个单字就是一个词了，分好了一个词，继续走，取"爱北京天"，继续前面的步骤，得到爱，继续取"北京天安"，这次得到的结果是北京，向后移动两个指针，继续取"天安门"，如果在词典中找到了"天安门"，分词结束。。得到的结果是"我爱北京天安门"；

逆向最大匹配是相反的过程，就是从句子后面向前走，比如先取"京天安门"，词典中没找到去掉京，剩"天安门"，找到，往前移动3个指针，取"我爱北京"，go one

词频统计就是说，基于人们的使用经验，看看哪种分词法组成的词频最大，默认为最好的分词

具体就是1。先进行粗分，得到很多个组合，形成一个N-gram图，然后计算每条路径的权重(就是路径上每个词在字典中词频数之和)，用n-shortest算法计算得到权重最大的路径，就是最优分词法，据统计这种分词法可达到97%的正确率

当然除了这些分词法之外，还有许多需要注意的地方，比如未登录词识别，词典组织(一般用Trie)等

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航