【NLTK基础教程】01-02 利用nltk统计词频
2018-01-21 20:36
369 查看
在上篇中,简单的介绍了三种获取有效文本的方法,那么接下来就利用nltk来统计这些文本中出现的次数。
我们首先来看下传统统计词频的方法:
统计结果如下:
利用nltk来统计文本词频如下:
相比之下,利用nltk库来实现,确实便利了很多。
好吧,《NLTK基础教程》第一章基本上就结束了,这一章主要是简单介绍了python的语法,然后引出NLTK。
我们首先来看下传统统计词频的方法:
import operator freq_dis={} for tok in tokens: if tok in freq_dis: freq_dis[tok]+=1 else: freq_dis[tok]=1 sorted_freq_dist=sorted(freq_dis.items(),key=operator.itemgetter(1),reverse=True) print(sorted_freq_dist[:25])
统计结果如下:
[('Python', 59), ('>>>', 24), ('the', 21), ('and', 21), ('to', 17), ('is', 17), ('of', 17), ('=', 14), ('for', 11), ('News', 11), ('Events', 11), ('a', 10), ('#', 9), ('More', 9), ('3', 8), ('in', 8), ('with', 7), ('Community', 7), ('...', 7), ('Docs', 6), ('Guide', 6), ('Software', 6), ('The', 5), ('1', 5), ('that', 5)]
利用nltk来统计文本词频如下:
import nltk Freq_dist_nltk=nltk.FreqDist(tokens) print(Freq_dist_nltk) for k,v in Freq_dist_nltk.items(): print(str(k)+":"+str(v)) Freq_dist_nltk.plot(50,cumulative=False)
相比之下,利用nltk库来实现,确实便利了很多。
好吧,《NLTK基础教程》第一章基本上就结束了,这一章主要是简单介绍了python的语法,然后引出NLTK。
相关文章推荐
- 【NLTK基础教程】02 何为文本歧义
- 【NLTK基础教程】01-1 三种获取网页中有效文本的方法
- [转]Ultra Fractal教程系列09——学习基础技巧01——创建另一个分形
- 【CityEngine教程文档】---01 基础教程
- 李洪强iOS开发之零基础学习iOS开发】【02-C语言】01-概述
- 蓝桥杯 BASIC_02 基础练习 01字串
- Activiti基础教程--01(简介、代码生成Activiti的25张表、Activiti配置文件activiti.cfg.xml生成25张表、在Eclipse上安装Activiti插件)
- [原创][PowerShell教程][02]PowerShell基础知识之一
- Spring基础学习教程(spring的常用注解)-02
- IDA教程01_基础(01-05)
- 【零基础学习iOS开发】【01-前言】02-准备
- IDA教程01_基础(11-15)
- titanium开发教程-01-02检测平台
- 学习笔记_JavaSE_02_Java基础语法01
- GStreamer基础教程01——Hello World
- Laravel基础教程01 - Laravel简介及安装
- 01序-AngularJS 基础教程
- python入门基础教程01 Python概述
- 数据类型,运算符和表达式01 - 零基础入门学习C语言02
- 李洪强iOS开发之【零基础学习iOS开发】【01-前言】02-准备