python统计文章中单词出现次数实例
2020-03-29 07:11
4975 查看
python统计单词出现次数
做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key, 单词出现的次数作为字典的 value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码。
下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词。
# -*- coding:utf-8 -*- import io import re class Counter: def __init__(self, path): """ :param path: 文件路径 """ self.mapping = dict() with io.open(path, encoding="utf-8") as f: data = f.read() words = [s.lower() for s in re.findall("\w+", data)] for word in words: self.mapping[word] = self.mapping.get(word, 0) + 1 def most_common(self, n): assert n > 0, "n should be large than 0" return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n] if __name__ == '__main__': most_common_5 = Counter("importthis.txt").most_common(5) for item in most_common_5: print(item)
执行效果:
('is', 10) ('better', 8) ('than', 8) ('the', 6) ('to', 5)
知识点补充:
1、如何正确读写文件
2、如何对数据进行排序
3、字典数据类型的运用
4、正则表达式的运用
到此这篇关于python统计文章中单词出现次数实例的文章就介绍到这了,更多相关python统计单词出现次数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
您可能感兴趣的文章:
相关文章推荐
- 用Python实现统计一篇英文文章内内个单词出现的频率, 并返回频率最高的前十个单词及次数(标点符号可省略)
- python---在文本/文章中统计字符串中出现单词次数
- python统计英文文章中单词出现的次数
- python 统计一篇英语文章中每个单词出现的次数
- Python统计单词出现的次数
- Java实现统计一篇文章中每个单词出现的次数
- 统计一篇英文文章内每个单词出现频率,并返回出现频率最高的前10个单词及其出现次数
- 统计海量文章内容中出现次数前K大的单词并输出(完整实现)
- 利用PYTHON快速统计数字|单词在文本中出现的次数
- python 统计数组中元素出现次数并进行排序的实例
- N个任务掌握java系列之统计一篇文章中单词出现的次数
- python实例:利用jieba库,分析统计金庸名著《倚天屠龙记》中人物名出现次数并排序...
- [python]使用Counter统计文章中出现频率最高的单词
- java统计一篇文章中单词出现的次数
- python统计文章单词次数
- 利用python内置函数,快速统计单词在文本中出现的次数
- java基础——统计某篇文章中每个单词出现的次数
- java实现读取一篇英文文章,统计其中每个单词出现的次数并排序输出
- 统计一篇英文文章中所有的单词以及出现的次数
- Linux作业(三)-shell统计某文章中出现频率最高的N个单词并排序输出出现次数