常见中文分词比较
2011-08-10 15:32
120 查看
对于英文文档,其分词的过程很简单。中文文本的分类难度较大,主要是因为汉语分词问题的困难,即为此需要建立完整的汉语概念体系、汉语语法、语义和语用分析是十分复杂的。
lucene包自带的三种中文分词:
以“我是中国人”这句话作分词举例
1.StandardAnalyzer:我-是-中-国-人
2.CJKAnalyzer:我是-是中-中国-国人
3.SmartChineseAnalyzer:我-是-中国-人
第一种是一元分词,第二种是二元分词,第三种应该比较复杂了,没看源码,我猜应该是根据中文语义来分的,有兴趣的可以去详细看看源码
solr自带的中文分词,solr.CJKTokenizerFactory,solr.ChineseTokenizerFactory和solr.ChineseFilterFactory
solr.CJKTokenizerFactory对应于lucene中的CJKAnalyzer,是二元分词
solr.ChineseTokenizerFactory对应于lucene中的StandardAnalyzer,是一元分词
solr.ChineseFilterFactory被StopFilterFactory取代,看名字应该知道是停用词过滤
下面这两种还没得及看,不知道是不是也和lucene中的SmartChineseAnalyzer对应呢
参考资料见官方API文档
lucene包自带的三种中文分词:
以“我是中国人”这句话作分词举例
1.StandardAnalyzer:我-是-中-国-人
2.CJKAnalyzer:我是-是中-中国-国人
3.SmartChineseAnalyzer:我-是-中国-人
第一种是一元分词,第二种是二元分词,第三种应该比较复杂了,没看源码,我猜应该是根据中文语义来分的,有兴趣的可以去详细看看源码
solr自带的中文分词,solr.CJKTokenizerFactory,solr.ChineseTokenizerFactory和solr.ChineseFilterFactory
solr.CJKTokenizerFactory对应于lucene中的CJKAnalyzer,是二元分词
solr.ChineseTokenizerFactory对应于lucene中的StandardAnalyzer,是一元分词
solr.ChineseFilterFactory被StopFilterFactory取代,看名字应该知道是停用词过滤
下面这两种还没得及看,不知道是不是也和lucene中的SmartChineseAnalyzer对应呢
org.apache.solr.analysis.SmartChineseSentenceTokenizerFactory
org.apache.solr.analysis.SmartChineseWordTokenFilterFactory
参考资料见官方API文档
相关文章推荐
- 常见中文分词比较
- 几种常见的中文分词包的分析与比较
- 用于Lucene的各中文分词比较
- 三种中文分词算法优劣比较
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较
- NLP︱中文分词技术小结、几大分词引擎的介绍与比较
- 中文分词技术比较:单字切分 vs 中文分词
- Lucene的各中文分词比较
- [转]Lucene中文分析器的中文分词准确性和性能比较
- 用于Lucene的各中文分词比较
- Lucene的各中文分词比较
- 中文分词比较困难的句子
- Oracle 中文分词CHINESE_VGRAM_LEXER与CHINESE_LEXER比较
- 常见中文分词开源项目
- Lucene中文分析器的中文分词准确性和性能比较
- 哈工大LTP和中科院NLPIR中文分词比较
- 用于Lucene的各中文分词比较
- 用于Lucene的各中文分词比较
- 常见中文分词开源项目
- 中文分词常见方法