结巴分词 0.19 发布 Python 中文分词组件
2012-10-26 06:52
309 查看
结巴分词: 做最好的Python中文分词组件
jieba 0.19主要包含以下两个更新:
1) 提升了模块加载的速度。
"import jieba"除了第一次以外,加载时间缩短了75%,在主流PC Server上可以实现一秒以内加载完毕。
工作机制:第一次“import jieba”时加载文本词典到内存生成模型,然后dump到磁盘上的cache文件。以后再"import jieba"时,会判断文本文件与cache文件的时间戳决定从哪里加载,由于cache文件加载更快,所以提升了速度。
2) 增加了用户自定义词典的接口。
开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率
用法: jieba.load_userdict(file_name) # file_name为自定义词典的路径
词典格式和dict.txt一样,一个词占一行;每一行分为两部分,一部分为词语,另一部分为词频,用空格隔开
范例:
jieba 0.19主要包含以下两个更新:
1) 提升了模块加载的速度。
"import jieba"除了第一次以外,加载时间缩短了75%,在主流PC Server上可以实现一秒以内加载完毕。
工作机制:第一次“import jieba”时加载文本词典到内存生成模型,然后dump到磁盘上的cache文件。以后再"import jieba"时,会判断文本文件与cache文件的时间戳决定从哪里加载,由于cache文件加载更快,所以提升了速度。
2) 增加了用户自定义词典的接口。
开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率
用法: jieba.load_userdict(file_name) # file_name为自定义词典的路径
词典格式和dict.txt一样,一个词占一行;每一行分为两部分,一部分为词语,另一部分为词频,用空格隔开
范例:
云计算 5 李小福 2 创新办 3 之前: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 / 加载自定义词库后: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
相关文章推荐
- 结巴分词 0.27 发布,Python 中文分词组件
- 结巴分词 0.14 版发布,Python 中文分词库
- 结巴分词(Python中文分词组件)
- “结巴”中文分词:做最好的 Python 中文分词组件
- 在Python里安装Jieba中文分词组件
- “结巴”分词:做最好的Python分词组件
- 对Python中文分词模块结巴分词算法过程的理解和分析
- 中文分词组件 KTDictSeg 1.2 版本发布及算法简介
- Python结巴中文分词工具使用过程中遇到的问题及解决方法
- 在Python里安装Jieba中文分词组件
- 对Python中文分词模块结巴分词算法过程的理解和分析
- Python中文分词组件jieba
- 对Python中文分词模块结巴分词算法过程的理解和分析
- python中文语音识别后-结巴分词以及停用词过滤时遇到的转码问题
- 对Python中文分词模块结巴分词算法过程的理解和分析
- python中文分词,使用结巴分词对python进行分词
- 对Python中文分词模块结巴分词算法过程的理解和分析
- python 中文分词:结巴分词
- 在Python里安装Jieba中文分词组件
- 中文分词组件 KTDictSeg 1.2 版本发布及算法简介