中文分词免费源码资源
2009-10-19 08:56
232 查看
1。http://www.chinesecomputing.com/nlp/segment.html
此链接介绍了很多分词资源。注意看其第二项(A Simplified Chinese Segmenter written in Perl )。里面有Perl和Java版的简体中文分词程序,完全free。我试了一下,效果不错。网上很多人向Lucene中添加中文分词时用的都是中科院ICTCLAS的接口。而中科院的ICTCLAS本身使用c++开发,所以用JNI给包装起来之后,当分词时就问题百出,非常不稳定。当时我做实验室的一个小DD用的也是这个接口,是北师大陈天封装,分词会经常出问题,当然责任不在陈天。我也专门就如何在Lucene中添加中文分词程序写过一篇文章,介绍如何在Lucene中使用ICTCLAS添加中文分词。后来有很多读者给我发Email探讨这个问题,为什么他们的就有问题。其实我用时也有时会有问题。这里你可以使用我所推荐替代那个免费的而且不好用的用JNI封装的令人抓狂的ICTCLAS。
但是本人没有对多线程进行测试,只是顺便用了一下。哪位达人试过确实好用,一定不要忘了告诉我。
2。http://www.fajava.cn/products_01.asp
推荐您采用第三代智能分词系统3GWS(the 3rd Generation Word Segmenter)。据说是ICTCLAS3.0的商用版本。参见:http://www.fajava.cn/products_01.asp 提供Linux/Windows下的API,可以试用。这是Blog上别人留的言,我没有试过。
3 中文分词免费版 (Nice thing)
4. 中国科学院计算所汉语词法分析系统 ICTCLAS
5. 海量智能分词研究版
6 .CSW中文智能分词组件
7.C# 写的中文分词组件
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=865217
此链接介绍了很多分词资源。注意看其第二项(A Simplified Chinese Segmenter written in Perl )。里面有Perl和Java版的简体中文分词程序,完全free。我试了一下,效果不错。网上很多人向Lucene中添加中文分词时用的都是中科院ICTCLAS的接口。而中科院的ICTCLAS本身使用c++开发,所以用JNI给包装起来之后,当分词时就问题百出,非常不稳定。当时我做实验室的一个小DD用的也是这个接口,是北师大陈天封装,分词会经常出问题,当然责任不在陈天。我也专门就如何在Lucene中添加中文分词程序写过一篇文章,介绍如何在Lucene中使用ICTCLAS添加中文分词。后来有很多读者给我发Email探讨这个问题,为什么他们的就有问题。其实我用时也有时会有问题。这里你可以使用我所推荐替代那个免费的而且不好用的用JNI封装的令人抓狂的ICTCLAS。
但是本人没有对多线程进行测试,只是顺便用了一下。哪位达人试过确实好用,一定不要忘了告诉我。
2。http://www.fajava.cn/products_01.asp
推荐您采用第三代智能分词系统3GWS(the 3rd Generation Word Segmenter)。据说是ICTCLAS3.0的商用版本。参见:http://www.fajava.cn/products_01.asp 提供Linux/Windows下的API,可以试用。这是Blog上别人留的言,我没有试过。
3 中文分词免费版 (Nice thing)
4. 中国科学院计算所汉语词法分析系统 ICTCLAS
5. 海量智能分词研究版
6 .CSW中文智能分词组件
7.C# 写的中文分词组件
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=865217
相关文章推荐
- [转载]中文分词免费源码资源
- 免费中文分词系统与资源收集
- 中文分词免费发布ChineseTokenizer.dll
- adobe audition cs6中文绿色精简版 (附资源免费下载)
- nutch-1.0添加JE中文分词-修改源码…
- 【资料汇编】结巴中文分词官方文档和源码分析系列文章
- 华软资源共享--免费下载380套大型企业管理源码
- 高性能搜索引擎sphinx源码解析之中文分词和mmseg
- 一些有关中文分词的资源
- 几个免费的中文分词模块 .
- 【结巴分词资料汇编】结巴中文分词源码分析(2)
- jieba中文分词源码分析(三)
- 中文分词的资源收集
- [资源推荐] 免费的编程中文书籍索引
- ElasticSearch源码解析(一):转一篇介绍中文分词的文章
- 免费开源的全文索引与检索平台(FirteX)、中文分词系统(ICTCLAS)
- 中文分词(二进制)源码实现
- 自然语言处理之:c++中文分词(附源码)
- IK中文分词扩展自定义词典【源码解析:文中是Configuration类,但是我的是Configuration接口,DefaultConfig类,可能ik版本不一致】
- DXperience 6.3X 中文资源包源码