jieba分词使用代码示例
2017-05-25 21:05
197 查看
#encoding=utf-8 from __future__ import unicode_literals import sys sys.path.append("../") import jieba import jieba.posseg import jieba.analyse print('1. 分词') seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("Full Mode: " + "/ ".join(seg_list)) # 全模式 seg_list = jieba.cut("我来到北京清华大学", cut_all=False) print("Default Mode: " + "/ ".join(seg_list)) # 默认模式 seg_list = jieba.cut("他来到了网易杭研大厦") print(", ".join(seg_list)) seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式 print(", ".join(seg_list)) print('2. 添加自定义词典/调整词典') print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False))) #如果/放到/post/中将/出错/。 print(jieba.suggest_freq(('中', '将'), True)) #494 print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False))) #如果/放到/post/中/将/出错/。 print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False))) #「/台/中/」/正确/应该/不会/被/切开 print(jieba.suggest_freq('台中', True)) #69 print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False))) #「/台中/」/正确/应该/不会/被/切开 print('3. 关键词提取') print(' TF-IDF') s = "随后,习近平听取了海军工作汇报,并发表重要讲话。他强调,建设强大的现代化海军是建设世界一流军队的重要标志,是建设海洋强国的战略支撑,是实现中华民族伟大复兴中国梦的重要组成部分。海军全体指战员要站在历史和时代的高度,担起建设强大的现代化海军历史重任。习近平指出,要贯彻国家安全战略和军事战略要求,科学统筹和推进海军转型建设。要强化作战需求牵引,坚持实战实训、联战联训,把战斗力标准贯穿海军转型建设全过程和各方面。要坚持体系建设,统筹机械化和信息化建设,统筹近海和远海力量建设,统筹水面和水下、空中等力量建设,统筹作战力量和保障力量建设,确保形成体系作战能力。要坚持创新驱动,抓住科技创新这个牛鼻子,强化创新意识,提高创新能力,激发创新活力,厚植创新潜力,为海军转型建设注入强大动力。要坚持依法治军,加快实现治军方式“三个根本性转变”,确保海军转型建设在法治轨道上有力有序推进。习近平强调,要坚持从思想上政治上建强海军。要增强“四个意识”,坚决维护党中央权威,毫不动摇坚持党对军队绝对领导,深入贯彻古田全军政治工作会议精神,扎实开展主题教育活动,推进“两学一做”学习教育常态化制度化,切实做好意识形态工作,全面彻底肃清郭伯雄、徐才厚流毒影响,确保人民海军忠于党、舰行万里不迷航。要保持定力、压实责任,强化监督执纪问责,推动正风肃纪反腐向纵深发展。各级党委要加强自身建设和政治历练,着力提高发现和解决自身问题的能力,把班子管好、把队伍带好。要按照军队好干部标准选人用人,培养大批高素质新型军事人才。要把工作重心放在基层,满腔热情关心关爱官兵,激发官兵扎根海疆、建功大洋的积极性、主动性、创造性,共同为建设强大的现代化海军而奋斗。中共中央政治局委员、中央军委副主席范长龙,中共中央政治局委员、中央军委副主席许其亮,中央军委委员常万全、房峰辉、张阳、赵克石、吴胜利、马晓天、魏凤和参加活动。" for x, w in jieba.analyse.extract_tags(s, withWeight=True): print('%s %s' % (x, w)) print(' TextRank') for x, w in jieba.analyse.textrank(s, withWeight=True): print('%s %s' % (x, w)) print('4. 词性标注') words = jieba.posseg.cut("我爱北京天安门") for word, flag in words: print('%s %s' % (word, flag)) print('6. Tokenize: 返回词语在原文的起止位置') print(' 默认模式') result = jieba.tokenize('永和服装饰品有限公司') for tk in result: print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) print(' 搜索模式') result = jieba.tokenize('永和服装饰品有限公司', mode='search') for tk in result: print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
运行结果如下
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
2. 添加自定义词典/调整词典
如果/放到/post/中将/出错/。
494
如果/放到/post/中/将/出错/。
「/台/中/」/正确/应该/不会/被/切开
69
「/台中/」/正确/应该/不会/被/切开
3. 关键词提取
TF-IDF
建设 0.256749895347
海军 0.239933143141
统筹 0.142401217847
坚持 0.121559061665
习近平 0.103606553367
创新 0.100012735129
转型 0.0986093047487
中央军委 0.089311059693
强大 0.0878786114721
力量 0.0774445725376
现代化 0.0704755782716
委员 0.0702184594101
强化 0.0697224512046
确保 0.0689353758114
治军 0.066159988883
中共中央政治局 0.0635065220153
推进 0.0599718432284
军队 0.0595859518295
作战 0.0591310372297
贯彻 0.0552928983474
TextRank
建设 1.0
海军 0.778089734677
坚持 0.375842762204
统筹 0.364685746721
创新 0.356390185501
转型 0.340866794065
政治 0.293607773666
力量 0.269922324935
确保 0.269182152965
强化 0.264295428857
工作 0.261012947359
推进 0.247304395662
作战 0.243444996964
官兵 0.237610797596
标准 0.213928536515
现代化 0.21068746826
提高 0.210432791432
能力 0.200818176483
激发 0.195419486104
治军 0.193592509132
4. 词性标注
我 r
爱 v
北京 ns
天安门 ns
6. Tokenize: 返回词语在原文的起止位置
默认模式
word 永和 start: 0 end:2
word 服装 start: 2 end:4
word 饰品 start: 4 end:6
word 有限公司 start: 6 end:10
搜索模式
word 永和 start: 0 end:2
word 服装 start: 2 end:4
word 饰品 start: 4 end:6
word 有限 start: 6 end:8
word 公司 start: 8 end:10
word 有限公司 start: 6 end:10
相关文章推荐
- lucene查询 之 TermQuery,通过项查询,及代码示例;TermQuery不使用分析器所以建议匹配不分词的Field域查询
- python使用jieba实现中文分词去停用词方法示例
- 演示事件(Event)怎样使用以及怎样为用户控件添加一个事件(示例代码下载)
- Control Study->AdRotator广告控件显示自定义配置文件中广告以及与DataGrid控件结合使用显示图片(示例代码下载)
- Control Study->AdRotator广告控件显示自定义配置文件中广告以及与DataGrid控件结合使用显示图片(示例代码下载)
- 演示Session对象使用 范例(示例代码下载)
- 演示事件(Event)怎样使用以及怎样为用户控件添加一个事件(示例代码下载)
- 演示Session对象使用 范例(示例代码下载)
- Asp.net 2.0 自定义控件开发专题[详细探讨页面状态(视图状态和控件状态)机制及其使用场景](示例代码下载)
- 使用代码调用ffmpeg示例
- C# 一个简单分词程序的思路和代码(五) 使用代码
- Asp.net 2.0 自定义控件开发专题[详细探讨页面状态(视图状态和控件状态)机制及其使用场景](示例代码下载)
- 演示Session对象使用 范例(示例代码下载)
- Asp.net 2.0 自定义控件开发专题[详细探讨页面状态(视图状态和控件状态)机制及其使用场景](示例代码下载)
- 演示Session对象使用 范例(示例代码下载)
- 代码示例:在多个UpdatePannel使用AJAX.NET TIMER控件
- 演示事件(Event)怎样使用以及怎样为用户控件添加一个事件(示例代码下载)
- 在DataList中使用PagedDataSource类分页示例(代码)
- Asp.net 2.0 自定义控件开发专题[详细探讨页面状态(视图状态和控件状态)机制及其使用场景](示例代码下载)
- Asp.net 2.0 自定义控件开发专题[详细探讨页面状态(视图状态和控件状态)机制及其使用场景](示例代码下载)