【Python】三国演义词频统计
2018-05-03 14:22
351 查看
import jieba
txt = open('C:/Users/eternal/Desktop/threekingdoms.txt','r',encoding='UTF-8').read() #提前修改txt文件编码格式utf-8
excludes = {'将军','却说','荆州','二人','不可','不能','如此'} #错误的名字
words = jieba.lcut(txt)
print(words)
counts = {}
for word in words:
if len(word) == 1:
continue
elif word == '诸葛亮' or word == '孔明曰':
rword = '孔明'
elif word == '关公' or word == '云长':
rword == '关羽'
elif word == '玄德' or word == '玄德曰':
rword = '刘备'
elif word == '孟德' or word == '丞相':
rword = '曹操'
else:
rword = word
counts[rword] = counts.get(rword,0) + 1
for word in excludes:
del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
print(items)
for i in range(10):
word,count = items[i]
print('{0:<10}{1:>5}'.format(word,count))
相关文章推荐
- python如何将字典中的值转化为list结构,以词频统计为例
- Python爬虫网易云歌词及词频统计--(周杰伦top50)
- python 统计TXT中的英文词频
- Python进行文本预处理(文本分词,过滤停用词,词频统计,特征选择,文本表示)
- (改进)Python语言实现词频统计
- python jieba分词并统计词频后输出结果到Excel和txt文档
- Python起步之字典案例(词频统计)
- python进行分词、去停用词和统计词频
- Python简单词频统计以及格式合并实现
- 使用python对中文文档进行词频统计
- python代码简单实现一个词频统计
- Python分词并进行词频统计
- [置顶] Python生成词云图,TIIDF方法文本挖掘: 词频统计,词云图
- python进行中文分词、词性标注、词频统计
- Python使用Hadoop进行词频统计
- 用python做词频统计
- Python3.5+PyQt5词频统计(一)
- python爬虫之2017政府工作报告词频统计
- Python实现中文小说词频统计
- Python学习笔记(二)列表统计词频