python-jieba分词库的使用
2019-05-22 03:50
239 查看
测试环境:py3+win10
- 安装:cmd命令行输入 pip3 install jieba
- 介绍:jieba是个不错的中文分词第三方库,需要额外安装;利用一个中文词库,确定汉字之间的关联概率;汉字间概率大的组成词组,形成分词结果;除了分词,用户还可以添加自定义的词组。
- 三种模式: 精确模式:把文本精确地切分开,不存在冗余的单词。
- 全模式:把文本中所有可能的词语都扫描出来,有冗余。
- 搜索引擎模式:在精确模式基础上,对长词再次切分。
-
常用函数:(函数前带‘l’字母的,返回列表)
jieba.cut(string) 精确模式,返回一个可迭代的数据类型 - jieba.cut(string,cut_all=True) 全模式,输出文本string中所有可能的单词
- jieba.cut_for_search(string) 搜索引擎模式,适合搜索引擎建立索引的分词
- jieba.lcut(string) 精确模式,返回一个列表。
- jieba.lcut(string,cut_all = True) 全模式,返回列表。
- jieba.lcut_for_search(string) 搜索引擎模式,返回列表。
- jieba.add_word(word) 向分词词典中添加新词word
import jieba str_test = '有很多人担心,美国一声令下,会禁止所有的开源软件被中国使用,这样的担忧是不必要的。' '''返回迭代器''' c1 = jieba.cut(str_test) c2 = jieba.cut(str_test,cut_all=True) c3 = jieba.cut_for_search(str_test) '''返回列表''' list_c1 = jieba.lcut(str_test) list_c2 = jieba.lcut(str_test,cut_all=True) list_c3 = jieba.lcut_for_search(str_test) print(c1,'\n',c2,'\n',c3,'\n',list_c1,'\n',list_c2,'\n',list_c3)
返回如下:
相关文章推荐
- python中的jieba分词使用手册
- python-jieba分词的安装和使用
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- jieba 分词 centos 安装,python使用
- python-jieba库的使用:《红楼梦》金陵十二钗出场次数统计
- python27使用jieba分词,去除停用词
- python 分词库jieba
- Python个人快速入门学习(九)jieba库的使用
- python中文分词库结巴使用示例
- python 搜索引擎Whoosh中文文档和代码 以及jieba的使用
- python中的jieba分词使用手册
- 使用 python3.6 调用 jieba 库出现的 ValueError: dictionary file dict.txt must be utf-8 错误
- python jieba库的基本使用
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- [python] 使用Jieba工具中文分词及文本聚类概念
- 使用python 的结巴(jieba)库进行中文分词
- [置顶] 【python 走进NLP】 NLP 使用jieba分词处理文本
- Python使用jieba分词并用weka进行文本分类
- Python中文分词--jieba的基本使用
- Python中文分词_使用介绍(wordcloud+jieba)