【nlp】湖北师范大学贴吧帖子标题词频统计
2017-10-10 15:20
357 查看
湖北师范大学贴吧帖子标题词频统计
抓取地址:http://tieba.baidu.com/f?kw=%E6%B9%96%E5%8C%97%E5%B8%88%E8%8C%83%E5%A4%A7%E5%AD%A6&ie=utf-8&pn=0
其中参数pn为分页条数,增量为50,尾页的pn值为7400共抓取到10389条帖子的标题,经过分词、过滤,获取到7134个词语,对这些词语进行词频统计,并进行排序。结果如下表:
词语 | 词频 |
---|---|
学长 | 440 |
湖师 | 416 |
学姐 | 386 |
学 | 384 |
求 | 364 |
想 | 361 |
专业 | 337 |
学校 | 333 |
新生 | 293 |
请问 | 282 |
考生 | 252 |
问 | 183 |
姐 | 172 |
求助 | 172 |
湖北 | 170 |
湖北师范大学 | 162 |
同学 | 160 |
贵校 | 149 |
新 | 139 |
文科 | 125 |
湖师贴吧标题统计表
湖师贴吧标题词频统计表
相关文章推荐
- [置顶] 【Python NLP入门教程】词频统计和处理停用词,可视化
- Python爬取某贴吧第一页的所有帖子的标题、连接、作者,将数据储存到txt文件中
- [置顶] 【spark 词频统计】spark单词进行计数升级版
- 【python 编程】网页中文过滤分词及词频统计
- Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构
- C++STL--map和set 词频统计和单词转换
- spark学习(二)之简单应用程序——词频统计
- 词频统计
- 词频统计作业
- 个人项目——词频统计
- 自然语言分词处理,词频统计
- 作业4 结对编程-词频统计
- 结对项目—— 词频统计
- 第三周 词频统计
- 个人项目 - 词频统计
- 词频统计(30 分)(map vector sort)
- 数据结构课设 词频统计
- 基于boost正则表达式:对目录下所有文本文件的中文词频统计
- 结对项目— 词频统计2(语言C++)
- 软件工程第一次作业词频统计