Python自然语言处理NLTK(1.1-1.3)
2015-10-10 19:54
525 查看
使用python中的nltk包处理自然语言时可以调用很多自带的函数:
text1.concordance("monstrous") :查找文本中出现参数单词的上下文
text1.similar("monstrous") :查找文本中出现与参数单词相近的上下文
len(text):获取文本text的长度
set(text):获取text的词汇表
sorted(set(text)):对text的词汇表进行排序
text.index('word'):获取word在text中第一次出现的索引位置
text[a:b]:从a到b的切片
fdist = FreqDist(text):统计text中每个单词出现的频率次数
text.collocations():找文本中的连词
fdist.items():统计词长度和每个词出现的次数
fdist.max():统计词长度出现最多频率最多的
增加样本
fdist.inc(sample)
计数给定样本出现的次数
fdist['monstrous']
给定样本的频率
fdist.freq('monstrous')
样本总数
fdist.N()
以频率递减顺序排序的样本链表
fdist.keys()
以频率递减的顺序遍历样本
fdist: in sample for
数值最大的样本
fdist.max()
绘制频率分布表
fdist.tabulate()
绘制频率分布图
fdist.plot()
text1.concordance("monstrous") :查找文本中出现参数单词的上下文
text1.similar("monstrous") :查找文本中出现与参数单词相近的上下文
len(text):获取文本text的长度
set(text):获取text的词汇表
sorted(set(text)):对text的词汇表进行排序
text.index('word'):获取word在text中第一次出现的索引位置
text[a:b]:从a到b的切片
fdist = FreqDist(text):统计text中每个单词出现的频率次数
text.collocations():找文本中的连词
fdist.items():统计词长度和每个词出现的次数
fdist.max():统计词长度出现最多频率最多的
增加样本
fdist.inc(sample)
计数给定样本出现的次数
fdist['monstrous']
给定样本的频率
fdist.freq('monstrous')
样本总数
fdist.N()
以频率递减顺序排序的样本链表
fdist.keys()
以频率递减的顺序遍历样本
fdist: in sample for
数值最大的样本
fdist.max()
绘制频率分布表
fdist.tabulate()
绘制频率分布图
fdist.plot()
相关文章推荐
- python 获取日期
- Python的编码注释# -*- coding:utf-8 -*-
- python 相关问题集锦
- python twisted 浅析
- Python 头部 #!/usr/bin/python 和 #!/usr/bin/env 的区别
- LeetCode----Combination Sum II
- LeetCode----Combination Sum
- 使用Python连接spark程序测试
- 使用国内镜像源来加速python pypi包的安装
- Python标准库之collections.Counter
- sublime配置运行python文件的快捷键
- Python Twisted 框架中 socket通信
- Python 正则表达式
- python检测主机存活端口
- Python unicode 转中文
- 机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树
- Python 时间戳与格式化时间互转
- 【笔记】Python入门(慕课)
- python fabric实现远程操作和部署
- Python微博地点签到大数据实战(三)大数据利器:爬虫