您的位置:首页 > 编程语言 > Python开发

python自然预言处理_(一)python与NLP

2015-10-02 00:39 423 查看
一错误

1\:

>>> fdist1=FreqDist(text1)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
NameError: name 'FreqDist' is not defined


处理办法:重新倒入

from nltk import *


检查词汇表中的词是否大于15

V=set(text1)


long_words=[w for w in V if len(w) >15]
长度超过7并且出现次数大于7


fdist5=FreqDist(text5)
sorted([w for w in set(text5) if len(w)>7 and fdist5[w]>7])


总结:

在 Python 中文本用链表来表示:['Monty', 'Python']。我们可以使用索引、分片和 l

en()函数对链表进行操作。

词“token”(标识符)是指文本中给定词的特定出现;词“type”(类型)则是指词作为一

个特定序列字母的唯一形式。我们使用 len(text)计数词的标识符,使用 len(set(text))

计数词的类型。

我们使用 sorted(set(t))获得文本 t 的词汇表。

我们使用[f(x) for x in text]对文本的每一项目进行操作。

为了获得没有大小写区分和忽略标点符号的词汇表,我们可以使用 set([w.lower() f

or w in text if w.isalpha()])。

我们使用 for 语句对文本中的每个词进行处理,例如 for win t:或者 for word in te

xt:。后面必须跟冒号和一块在每次循环被执行的缩进的代码。

我们使用 if 语句测试一个条件: if len(word)<5:。后面必须跟冒号和一块仅当条件为

真时执行的缩进的代码。

频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频

率)。

函数是指定了名字并且可以重用的代码块。函数通过 def 关键字定义,例如在 def mu

lt( x , y )中 x 和 y 是函数的参数,起到实际数据值的占位符的作用。

函数是通过指定它的名字及一个或多个放在括号里的实参来调用,就像这样:mult(3,

4)或者 len(text1)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: