结巴分词 0.27 发布,Python 中文分词组件
2013-04-22 20:46
225 查看
本次release的主要更新:
1) 新增并行分词功能,可以在多核计算机上显著提高分词速度
2) 修正了“的”字频过高引起的bug;修正了对小数点和下划线的处理
3) 修正了python2.6存在的兼容性问题
并行分词介绍:
原理:将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果,从而获得分词速度的可观提升
基于python自带的multiprocessing模块,目前暂不支持windows
用法:
jieba.enable_parallel(4) # 开启并行分词模式,参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式
例子: https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
实验结果:在4核3.4GHz Linux机器上,对金庸全集进行分词,获得了1MB/s的速度,是单进程版的3.3倍。
1) 新增并行分词功能,可以在多核计算机上显著提高分词速度
2) 修正了“的”字频过高引起的bug;修正了对小数点和下划线的处理
3) 修正了python2.6存在的兼容性问题
并行分词介绍:
原理:将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果,从而获得分词速度的可观提升
基于python自带的multiprocessing模块,目前暂不支持windows
用法:
jieba.enable_parallel(4) # 开启并行分词模式,参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式
例子: https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
实验结果:在4核3.4GHz Linux机器上,对金庸全集进行分词,获得了1MB/s的速度,是单进程版的3.3倍。
相关文章推荐
- 结巴分词 0.19 发布 Python 中文分词组件
- 结巴分词(Python中文分词组件)
- “结巴”中文分词:做最好的 Python 中文分词组件
- 结巴分词 0.14 版发布,Python 中文分词库
- python中文分词工具——结巴分词
- 在Python里安装Jieba中文分词组件
- 对Python中文分词模块结巴分词算法过程的理解和分析
- python中文分词:结巴分词
- Python结巴中文分词工具使用过程中遇到的问题及解决方法
- “结巴”分词:做最好的Python分词组件
- “结巴”分词:做最好的Python分词组件
- python中文分词,使用结巴分词对python进行分词
- Python分词模块推荐:结巴中文分词
- 结巴中文分词使用学习(python)
- 在Python里安装Jieba中文分词组件
- 7. Python 结巴中文分词
- Python分词模块推荐:结巴中文分词
- Python中文分词组件 jieba
- Py之jieba:Python包之jieba包——中文分词最好的组件——Jason niu
- Python 中文分词工具 ——结巴分词的使用方法总结