文本处理之Python词频统计
2018-03-08 15:05
423 查看
往前2篇的博客中,爬取了谣言百科网站中不同分类的新闻并以文本的形式存取下来啦。
上一篇博客中对存取的文件进行了中文分词操作,现在我们想要对存取的文本进行词频统计操作。
上代码:
运行完词频统计结束~
上一篇博客中对存取的文件进行了中文分词操作,现在我们想要对存取的文本进行词频统计操作。
上代码:
# -*- coding: utf-8 -*- """ Created on Thu Mar 8 14:21:05 2018 @author: Administrator """ # 2017年7月4日17:08:15 # silei # 训练模型,查看效果 # 数据文件数一共1209个 # baby,car,food,health,legend,life,love,news,science,sexual # 130,130,130,130,130,130,130,130,130,39 # -*- coding:UTF-8 -*- dir = {'baby': 130,'car': 130,'food': 130,'health': 130,'legend': 130,'life': 130,'love': 130,'news': 130,'science': 130,'sexual': 39}# 设置词典,分别是类别名称和该类别下一共包含的文本数量 data_file_number = 0# 当前处理文件索引数 def MakeAllWordsList(train_datasseg):# 统计词频 all_words = {} for train_dataseg in train_datasseg: for word in train_dataseg: if word in all_words: all_words[word] += 1 else: all_words[word] = 1 # print("all_words length in all the train datas: ", len(all_words.keys()))# 所有出现过的词数目 all_words_reverse = sorted(all_words.items(), key=lambda f:f[1], reverse=True) # 内建函数sorted参数需为list # key函数利用词频进行降序排序 for all_word_reverse in all_words_reverse: print(all_word_reverse[0], "\t", all_word_reverse[1]) all_words_list = [all_word_reverse[0] for all_word_reverse in all_words_reverse if len(all_word_reverse[0])>1] return all_words_list if __name__ == "__main__": for world_data_name,world_data_number in dir.items(): while (data_file_number < world_data_number): print(world_data_name) print(world_data_number) print(data_file_number) file = open('F:\\test\\'+world_data_name+'\\'+str(data_file_number)+'.txt','r',encoding= 'UTF-8') MakeAllWordsList(file) for line in file: print(line+'\n', end='') file.close()
运行完词频统计结束~
相关文章推荐
- Python数据分析之文本处理词频统计
- python 文本单词提取和词频统计
- 用python对文本格式的数据进行统计处理
- Python:练习题(列表推导式、词频统计、异常处理、正则表达式等)
- PYTHON3.6对中文文本分词、去停用词以及词频统计
- python实战,中文自然语言处理,应用jieba库来统计文本词频
- Python 3.6 利用NLTK 统计多个文本中的词频
- Python进行文本预处理(文本分词,过滤停用词,词频统计,特征选择,文本表示)
- [置顶] Python生成词云图,TIIDF方法文本挖掘: 词频统计,词云图
- Python 对文本先按词频统计,若相同按字典排序,后取TopN
- python简单练习 -统计文本词频并用柱状图显示
- [置顶] 【Python NLP入门教程】词频统计和处理停用词,可视化
- python文本处理常用工具代码(一)
- python-框架-网页爬虫-文本处理-科学计算-可视化-机器学习-数据挖掘-深度学习
- 【python】文本处理:利用NLTK断句
- Python文本处理和Java/C比对
- win10上用Python2.7处理文本,出错IOError: [Errno 2] No such file or directory:如何解决???
- python文本处理
- Python处理list中的重复元素(重命名,统计,删除等)
- Python基本数据统计(二)---- 数据选择 & 简单统计与处理