python jieba分词并统计词频后输出结果到Excel和txt文档方法
2018-02-11 13:51
1246 查看
前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。
让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。
运行环境:
- 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
- 安装jieba:pip install jieba
- 安装xlwt:pip install xlwt
具体代码如下:
#!/usr/bin/python # -*- coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding('utf-8') import jieba import jieba.analyse import xlwt #写入Excel表的库 if __name__=="__main__": wbk = xlwt.Workbook(encoding = 'ascii') sheet = wbk.add_sheet("wordCount")#Excel单元格名字 word_lst = [] key_list=[] for line in open('1.txt'):#1.txt是需要分词统计的文档 item = line.strip('\n\r').split('\t') #制表格切分 # print item tags = jieba.analyse.extract_tags(item[0]) #jieba分词 for t in tags: word_lst.append(t) word_dict= {} with open("wordCount.txt",'w') as wf2: #打开文件 for item in word_lst: if item not in word_dict: #统计数量 word_dict[item] = 1 else: word_dict[item] += 1 orderList=list(word_dict.values()) orderList.sort(reverse=True) # print orderList for i in range(len(orderList)): for key in word_dict: if word_dict[key]==orderList[i]: wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 key_list.append(key) word_dict[key]=0 for i in range(len(key_list)): sheet.write(i, 1, label = orderList[i]) sheet.write(i, 0, label = key_list[i]) wbk.save('wordCount.xls') #保存为 wordCount.xls文件
1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。
您可能感兴趣的文章:
相关文章推荐
- python jieba分词并统计词频后输出结果到Excel和txt文档
- Python jieba 中文分词与词频统计
- python之利用嵌套列表解析将sql查询结果同时写excel和txt文档
- 【统计词频】python+excel +jieba
- Python3.6笔记之将程序运行结果输出到文件的方法
- selenium+python关于登录的脚本代码,使用了读取excel以及向excel中写入测试结果的方法
- python使用jieba实现中文分词去停用词方法示例
- python操作excel文件并输出txt文件的实例
- 文本分词,并统计分词出现次数,结果输出到文件中
- POI使用:用poi接口不区分xls/xlsx格式解析Excel文档(41种日期格式解析方法,5种公式结果类型解析方法,3种常用数值类型精度控制办法)
- python统计文档词频
- python统计词频的方法
- 运行-》打开word,excel,ppt,txt文档方法
- 利用Python读取txt文档的方法
- 【实例】词频统计及其可视化python+jieba+wordcloud
- 【python 编程】网页中文过滤分词及词频统计
- Python分词并进行词频统计
- [python]你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
- python操作excel文件并输出txt文件
- python实现读Excel写入.txt的方法