中文分词方法
2009-03-05 10:09
176 查看
中文分词方法大体归结为两大类,一类是无词典的,一类是有词典的
一、对于无词典的,算法主要是n元分词,比如n=2,就是两两分词,对于"我爱北京天安门"这句话,分词的结果是 "我爱 爱北 北京 京天 天安 安门"
优点:无需词典
缺点:产生大量无用词,而且n的数值不好把握,当n=2时放过了一些3元或4元词
这种方法对查询进行分词还可以,但对建倒排索引非常不可取
二。有词典,方法大体有三
1.前向最大匹配
2。逆向最大匹配
3。词频统计
前向最大匹配就是,从前往后对一个句子进行取词,然后去词典查找有没有,有则分词成功,无则减小这个词,继续去词典查找,例子。对于"我爱北京天安门",首先取"我爱北京"(汉字最大词长一般是4个),去词典中没找到,然后去掉京,变为"我爱北",又没找到,再去掉北,变成"我爱",还没找到,去掉爱,还没找到,只剩下一个我了,那么我这个单字就是一个词了,分好了一个词,继续走,取"爱北京天",继续前面的步骤,得到爱,继续取"北京天安",这次得到的结果是北京,向后移动两个指针,继续取"天安门",如果在词典中找到了"天安门",分词结束。。得到的结果是"我 爱 北京 天安门";
逆向最大匹配是相反的过程,就是从句子后面向前走,比如先取"京天安门",词典中没找到去掉京,剩"天安门",找到,往前移动3个指针,取"我爱北京",go one
词频统计就是说,基于人们的使用经验,看看哪种分词法组成的词频最大,默认为最好的分词
具体就是1。先进行粗分,得到很多个组合,形成一个N-gram图,然后计算每条路径的权重(就是路径上每个词在字典中词频数之和),用n-shortest算法计算得到权重最大的路径,就是最优分词法,据统计这种分词法可达到97%的正确率
当然除了这些分词法之外,还有许多需要注意的地方,比如未登录词识别,词典组织(一般用Trie)等
一、对于无词典的,算法主要是n元分词,比如n=2,就是两两分词,对于"我爱北京天安门"这句话,分词的结果是 "我爱 爱北 北京 京天 天安 安门"
优点:无需词典
缺点:产生大量无用词,而且n的数值不好把握,当n=2时放过了一些3元或4元词
这种方法对查询进行分词还可以,但对建倒排索引非常不可取
二。有词典,方法大体有三
1.前向最大匹配
2。逆向最大匹配
3。词频统计
前向最大匹配就是,从前往后对一个句子进行取词,然后去词典查找有没有,有则分词成功,无则减小这个词,继续去词典查找,例子。对于"我爱北京天安门",首先取"我爱北京"(汉字最大词长一般是4个),去词典中没找到,然后去掉京,变为"我爱北",又没找到,再去掉北,变成"我爱",还没找到,去掉爱,还没找到,只剩下一个我了,那么我这个单字就是一个词了,分好了一个词,继续走,取"爱北京天",继续前面的步骤,得到爱,继续取"北京天安",这次得到的结果是北京,向后移动两个指针,继续取"天安门",如果在词典中找到了"天安门",分词结束。。得到的结果是"我 爱 北京 天安门";
逆向最大匹配是相反的过程,就是从句子后面向前走,比如先取"京天安门",词典中没找到去掉京,剩"天安门",找到,往前移动3个指针,取"我爱北京",go one
词频统计就是说,基于人们的使用经验,看看哪种分词法组成的词频最大,默认为最好的分词
具体就是1。先进行粗分,得到很多个组合,形成一个N-gram图,然后计算每条路径的权重(就是路径上每个词在字典中词频数之和),用n-shortest算法计算得到权重最大的路径,就是最优分词法,据统计这种分词法可达到97%的正确率
当然除了这些分词法之外,还有许多需要注意的地方,比如未登录词识别,词典组织(一般用Trie)等
相关文章推荐
- ANSJ中文分词使用方法
- 中文分词 (机械传统方法 )正向最大匹配
- 数据库分词查询的优缺点以及英文和中文各自的分词方法(二)
- 中文分词器分词效果的评测方法
- 基于字标注的中文分词方法
- Lucene下引入ICTCLAS进行中文分词的实现方法
- 转一个,中文分词方法概述
- 中文分词器分词效果的评测方法
- nutch集成中文分词搜索时出现空白页解决方法
- 【笔记】提高中文分词准确性和效率的方法
- Python 中文分词工具 ——结巴分词的使用方法总结
- ANSJ中文分词使用方法
- Java开源中文分词器的使用方法和分词效果对比
- 一种中文文本的快速分词方法(一)(未完待续)
- 动态规划的中文分词方法
- python使用jieba实现中文分词去停用词方法示例
- Ubuntu下使用Java调用IKAnalyzer中文分词程序失效的解决方法
- Python中文分词实现方法(安装pymmseg)
- Python 中文分词工具 ——结巴分词的使用方法总结
- Lucene中文分词实现方法:基于StopWord分割分词