您的位置:首页 > 编程语言

jieba分词使用代码示例

2017-05-25 21:05 197 查看
#encoding=utf-8
from __future__ import unicode_literals
import sys
sys.path.append("../")

import jieba
import jieba.posseg
import jieba.analyse

print('1. 分词')

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 默认模式

seg_list = jieba.cut("他来到了网易杭研大厦")
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

print('2. 添加自定义词典/调整词典')

print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
#如果/放到/post/中将/出错/。
print(jieba.suggest_freq(('中', '将'), True))
#494
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
#如果/放到/post/中/将/出错/。
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
#「/台/中/」/正确/应该/不会/被/切开
print(jieba.suggest_freq('台中', True))
#69
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
#「/台中/」/正确/应该/不会/被/切开

print('3. 关键词提取')
print(' TF-IDF')

s = "随后,习近平听取了海军工作汇报,并发表重要讲话。他强调,建设强大的现代化海军是建设世界一流军队的重要标志,是建设海洋强国的战略支撑,是实现中华民族伟大复兴中国梦的重要组成部分。海军全体指战员要站在历史和时代的高度,担起建设强大的现代化海军历史重任。习近平指出,要贯彻国家安全战略和军事战略要求,科学统筹和推进海军转型建设。要强化作战需求牵引,坚持实战实训、联战联训,把战斗力标准贯穿海军转型建设全过程和各方面。要坚持体系建设,统筹机械化和信息化建设,统筹近海和远海力量建设,统筹水面和水下、空中等力量建设,统筹作战力量和保障力量建设,确保形成体系作战能力。要坚持创新驱动,抓住科技创新这个牛鼻子,强化创新意识,提高创新能力,激发创新活力,厚植创新潜力,为海军转型建设注入强大动力。要坚持依法治军,加快实现治军方式“三个根本性转变”,确保海军转型建设在法治轨道上有力有序推进。习近平强调,要坚持从思想上政治上建强海军。要增强“四个意识”,坚决维护党中央权威,毫不动摇坚持党对军队绝对领导,深入贯彻古田全军政治工作会议精神,扎实开展主题教育活动,推进“两学一做”学习教育常态化制度化,切实做好意识形态工作,全面彻底肃清郭伯雄、徐才厚流毒影响,确保人民海军忠于党、舰行万里不迷航。要保持定力、压实责任,强化监督执纪问责,推动正风肃纪反腐向纵深发展。各级党委要加强自身建设和政治历练,着力提高发现和解决自身问题的能力,把班子管好、把队伍带好。要按照军队好干部标准选人用人,培养大批高素质新型军事人才。要把工作重心放在基层,满腔热情关心关爱官兵,激发官兵扎根海疆、建功大洋的积极性、主动性、创造性,共同为建设强大的现代化海军而奋斗。中共中央政治局委员、中央军委副主席范长龙,中共中央政治局委员、中央军委副主席许其亮,中央军委委员常万全、房峰辉、张阳、赵克石、吴胜利、马晓天、魏凤和参加活动。"
for x, w in jieba.analyse.extract_tags(s, withWeight=True):
print('%s %s' % (x, w))

print(' TextRank')

for x, w in jieba.analyse.textrank(s, withWeight=True):
print('%s %s' % (x, w))

print('4. 词性标注')

words = jieba.posseg.cut("我爱北京天安门")
for word, flag in words:
print('%s %s' % (word, flag))

print('6. Tokenize: 返回词语在原文的起止位置')
print(' 默认模式')

result = jieba.tokenize('永和服装饰品有限公司')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

print(' 搜索模式')

result = jieba.tokenize('永和服装饰品有限公司', mode='search')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))


运行结果如下

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

Default Mode: 我/ 来到/ 北京/ 清华大学

他, 来到, 了, 网易, 杭研, 大厦

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ,, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

2. 添加自定义词典/调整词典

如果/放到/post/中将/出错/。

494

如果/放到/post/中/将/出错/。

「/台/中/」/正确/应该/不会/被/切开

69

「/台中/」/正确/应该/不会/被/切开

3. 关键词提取

TF-IDF

建设 0.256749895347

海军 0.239933143141

统筹 0.142401217847

坚持 0.121559061665

习近平 0.103606553367

创新 0.100012735129

转型 0.0986093047487

中央军委 0.089311059693

强大 0.0878786114721

力量 0.0774445725376

现代化 0.0704755782716

委员 0.0702184594101

强化 0.0697224512046

确保 0.0689353758114

治军 0.066159988883

中共中央政治局 0.0635065220153

推进 0.0599718432284

军队 0.0595859518295

作战 0.0591310372297

贯彻 0.0552928983474

TextRank

建设 1.0

海军 0.778089734677

坚持 0.375842762204

统筹 0.364685746721

创新 0.356390185501

转型 0.340866794065

政治 0.293607773666

力量 0.269922324935

确保 0.269182152965

强化 0.264295428857

工作 0.261012947359

推进 0.247304395662

作战 0.243444996964

官兵 0.237610797596

标准 0.213928536515

现代化 0.21068746826

提高 0.210432791432

能力 0.200818176483

激发 0.195419486104

治军 0.193592509132

4. 词性标注

我 r

爱 v

北京 ns

天安门 ns

6. Tokenize: 返回词语在原文的起止位置

默认模式

word 永和 start: 0 end:2

word 服装 start: 2 end:4

word 饰品 start: 4 end:6

word 有限公司 start: 6 end:10

搜索模式

word 永和 start: 0 end:2

word 服装 start: 2 end:4

word 饰品 start: 4 end:6

word 有限 start: 6 end:8

word 公司 start: 8 end:10

word 有限公司 start: 6 end:10
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐