[自然语言处理] 文本向量化技术
2017-09-26 16:05
274 查看
前期准备
使用文本向量化的前提是要对文章进行分词,分词可以参考前一篇文章。然后将分好的词进行向量化处理,以便计算机能够识别文本。常见的文本向量化技术有词频统计技术、TF-IDF技术等。
词频统计技术
词频统计技术是很直观的,文本被分词之后。 用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。然后给每个维度使用词频当作权值。词频统计技术默认出现频率越高的词权重越大。举例说明:
原文:
句子A:我喜欢看电视,不喜欢看电影。
句子B:我不喜欢看电视,也不喜欢看电影。
分词结果:
句子A:我/喜欢/看/电视,不/喜欢/看/电影。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
列出维度:我,喜欢,看,电视,电影,不,也.
统计词频:
句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。
句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。
转换为向量:
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
可以看出:词频统计技术直观、简单。但是有明显的缺陷:中文中有的词汇,如:“我”,“的”出现频率很高,因此会赋予较高的权值,但是这些词汇本身无意义。因此若要使用词频统计技术,必须要引入停用词将这些无意义的词汇进行过滤。
TF-IDF技术
TF-IDF技术就是为了克服词频统计技术的缺陷而产生的,它引入了“逆文档频率”概念,它衡量了一个词的常见程度,TF-IDF的假设是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出,那么它很可能就反映了这篇文章的特性,因此要提高它的权值。TF-IDF技术的需要维护一个语料库或文件集用于计算每个词的出现频率,频率越高的逆文档频率越小。语料库可以是整个铁路规章制度的集合,也可以是某个规章制度的全文。实践证明,TF-IDF在分词的时候,也需要剔除掉明显的停用词,这样效果会比较好。
例如对于铁路规章制度而言,文本中“列车”一次的词频必然会非常高,但是在其语料库中出现的频率会非常高,因此其权重反而会降低。
相关文章推荐
- R语言机器学习与大数据可视化暨Python文本挖掘与自然语言处理核心技术研修
- “R语言机器学习与大数据可视化”暨“Python文本挖掘与自然语言处理”核心技术高级研修班的通知
- 【小技巧】过长文本截取技术 text-overflow:ellipsis
- 用TTS技术开发具有文本朗读功能的应用程序(转)之三
- 《Spark机器学习》笔记——Spark高级文本处理技术(NLP、特征哈希、TF-IDF、朴素贝叶斯多分类、Word2Vec)
- 自然语言处理入门(2)——中文文本处理利器snownlp
- 文本情感分析的基础在于自然语言处理、情感词典、机器学习方法等内容。以下是我总结的一些资源。
- 自然语言处理技术(NLP)在推荐系统中的应用
- python学习-文本数据分析1(主题提取+词向量化)
- 文本向量化
- PHP调用百度AI接口人脸识别-语音技术-文本识别-图像识别
- iOS中 UITextView文本视图 技术分享
- css技术1-控制文本长度,文本自动换行
- [技术讨论]量化工作量方法已经初步成型
- 文本挖掘预处理之向量化与Hash Trick
- 网络挖掘技术——微博文本特征提取
- OCR技术浅探 : 文字定位和文本切割(2)
- NLP基本功-文本相似度 | AI产品经理需要了解的AI技术通识
- 自然语言处理--PTB文本数据集的预处理方法(下篇 2/2)
- 基于机器学习的文本自动分类技术[2]