您的位置:首页 > 编程语言 > Java开发

jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本

2013-12-21 12:50 721 查看
jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.9.2更新内容:

1. 配置文件中词库多目录加载, 多个目录使用';'隔开.

例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2

2. 修复中文分数识别可能的一种错误组合的bug.

例如: 三二分之,现在可以很好的处理这些情况。

3. 修复部分中文分数无法转换为阿拉伯分数的bug.

这个是一个逻辑处理上面的bug, 中文分数正常识别了,但是逻辑判断上面的bug导致没有转换。

4. 词库合并工具bug修复.

最新版本的词库已经上传到google code, 请使用最新版本的词库。

5. 词库加载错误友好提示.

如果词库中某些词条的格式错误,jcseg会直接终止,现在改成了提示用户哪个词库的哪个词条出错了,利于纠正过来。

6. 对复杂的数字和英文组合词进行再次切分。

这个是本次更新最大的亮点,例如:qq2013会被切分成:qq2013/ qq/ 2013,chenxin619315@gmail.com会被切分成:chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

当然,你可以选择不开启这个功能。jcseg.properties中的控制选项。

#Wether to start the secondary segmentation for the complex english words.

jcseg.ensencondseg = 1

#min length of the secondary simple token. (better larger than 1)

jcseg.stokenminlen = 2

jcseg对英文的处理是通过空格和标点来断开的,默认jcseg保留了一些标点,也就是保留标点会当作字符来处理,这样可以识别一些复杂常用的组合词,例如:k&r, c++等。就拿qq2013来说,其他的分词器都会切分成:qq/ 2013, jcseg认为两个字符组合在一起肯定有其特定的含义,要保留组合,同时如果进行二次切分,可以避免带来的检索命中下降的情况。

7. 将自动保留的标点放置到了jcseg.properties配置文件中, 方便更改并且默认去除了对/,^等的保留.

方便用户自定义配置保留标点,也可以选择去掉。。。

感谢网友的反馈和支持,祝您心情愉快。。。

关于jcseg: http://code.google.com/p/jcseg/

下载jcseg: http://code.google.com/p/jcseg/downloads/list
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: