python3 怎么统计英文文档常用词?(附解释)
2017-04-08 02:06
246 查看
# coding: utf-8 # In[32]: #import requests #from bs4 import BeautifulSoup #res = requests.get("http://www.guancha.cn/america/2017_01_21_390488_s.shtml") #res.encoding = 'utf-8' #soup = BeautifulSoup(res.text,'lxml') # In[66]: speech_new = open("speech.txt",'r',encoding = 'utf-8').read() #当然你要有个英文文档 speech = speech_new.lower().split() #lower() 把全部大写变小写, spltt()分割字符串 默认为空格 # In[70]: dic = {} for i in speech: if i not in dic: #如果字符串不在dic字典里面 dic[i] = 1 #就加上去并附上1值 else: dic[i] = dic[i] + 1 #有了的话值就加1 # In[68]: import operator list = sorted(dic.items(),key = operator.itemgetter(1), reverse=True) #dic items() , #key = operator.itemgetter(1)以什么排序,我们tuple里面有0还有1,我们输入1 #reverse=True 大小排序 # In[94]: from nltk.corpus import stopwords #自然语言处理 stop_words = stopwords.words('English') #取出英文停用词 # In[103]: for k,v in list: #把tuple里面0给k,1给v if k not in stop_words: print(k,v)
但是python3自带有个非常牛逼的东西
# In[108]: from collections import Counter #2.6以后才出现的数据结构 c = Counter(speech) # In[111]: c.most_common(10) # In[113]: for sw in stop_words: del c[sw] #删除里面的停用词 # In[114]: c.most_common(10)
非常简单的就统计出来了
相关文章推荐
- Python统计一个英文文档中各单词出现的行数
- Java 读取一段英文文档统计每个单词出现的次数和单词的总数
- 统计英文单词的个数的python代码 及 字符串分割
- 使用python统计出txt文档中含有某个单词的个数
- python统计文档词频
- [原创博文] 用Python做统计分析 (Scipy.stats的文档)
- Java 读取一段英文文档统计每个单词出现的次数和单词的总数
- 使用python对中文文档进行词频统计
- Python实现统计英文单词个数及字符串分割代码
- 每天一个python小程序 004:任一个英文的纯文本文件,统计其中的单词出现的个数
- Python练习册 第 0006 题:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
- 统计英文单词的个数的python代码
- 我的文档变成英文了怎么办?为什么有的文件夹看起来是中文,但路径却是英文?
- python 统计 英文 单词
- 一个简单的程序,统计文本文档中的单词和汉字数,逆序排列(出现频率高的排在最前面)。python实现。
- python统计一个文档中 各个字符出现的次数
- python实现统计汉字/英文单词数的正则表达式
- 【python初学】TXT文档行数统计
- 002_024 Python 在Windows和Mac OS X平台上统计PDF的文档的页数
- Java interview 统计一篇英文文档的单词数,并输出次数最多的10个