NLTK 2 获得文本语料和词汇资源
2015-07-07 13:50
363 查看
1 获得文本语料库
1.1 古登堡语料库(Project Gutenberg)
#nltk包含gutenberg的一小部分文本 import nltk nltk.corpus.gutenberg.fileids() emma=nltk.corpus.gutenberg.words('austen-emma.txt') print len(emma) #192427
form nltk.corpus import gutenberg gutenberg.fileids() for fileid in gutenberg.fileids(): num_chars=len(gutenberg.raw(fileid)) num_words=len(gutenberg.words(fileid)) num_sents=len(gutenberg.sents(fileid)) num_vocab=len(set([w.lower() for w in gutenberg.words(fileid)])) print int(num_chars/num_words),int(num_words/num_sents),int(num_words/num_vocab),fileid
平均词长 平均句子长度 本文中每个词出现的平均次数
raw()函数能在没有 进行过任何语言学处理之前把文件的内容分析出来。
sents()函数把文本划分成句子,每个句子是一个词链表。
1.2 网络和聊天文本
from nltk.corpus import webtext #还有from nltk.corpus import nps_chat for fileid in webtext.fileids(): print fileid, webtext.raw(fileid)[:65], '...'
1.3 布朗语料库
from nltk.corpus import brown
1.4 路透社语料库
from nltk.corpus import reuters
1.5 就职演说语料库
from nltk.corpus import inaugural
1.6 标注文本语料库
1.7 其他预言的语料库
from nltk.corpus import cess_esp.words()
相关文章推荐
- 带时间的日期选择器
- Extjs的radio单选框的使用
- Spring中引用不同xml中的bean
- iOS中的多线程
- Canny 边缘检测 (Emgu.CV)
- 一些文章的搜集——关于Hadoop
- 聊天程序的一些注意事项
- linux下查看文本文件命令
- 黑马程序员—Java面向对象
- HDU 5265 pog loves szh II (二分查找)
- FreeMarker整合Spring 3(转)
- 【转】 CSS3实现10种Loading效果
- a链接实现页面的刷新跳转
- 【算法】二分查找与暴力查找(白名单过滤)
- 基于反射制作Ioc库(上)
- MySQL数据库中tinyint字段值为1,读取出来为true的问题
- CopyOnWriteArrayList详解
- GRE写作必备句型
- HTML5,不只是看上去很美(第二弹:打造最美3D机房)
- 七种公司永远做不大,十种老板永远不成功