TF-IDF 提取文本关键词
2015-01-27 13:26
459 查看
TF-IDF是一种统计方法,用于评估某个词语对于一个文本集或者一个语料库中的一个文件的重要程度,字词的重要性随着其在文本的出现次数成比例增加,但是又会随着其在语料库中的频率反比率下降,多为搜索引擎应用,作为文件和用户搜索的相关程度的度量和评级。
算法由二部分定义:
TF:词频。一个字词在一个文本中出现的频率。
TF = 某词在文章出现的次数/文章中总词数
但是在文章中出现最多的词语很可能是:“的”,“地”,“是”等词语,但是这样的词语对于文章的关键性没有什么具体的帮助,这样的词语称之为停用词。在文章中需要将停用词进行过滤,才可以进行评估。
经过上述分析,可以简单的知道文本提取关键词是怎么回事,但是对于停用词进行过滤之后,所剩下的词语的词频很可能是相同的:例如“中国”、“足球”、“出现”在经过过滤之后的出现次数是一样的,但是由生活交流可以了解到 ”出现“相对于"中国"、“足球”不是那么的常见,所以可以分析出,“出现”这个词语对于这篇文章的重要性较大,所以需要通过一个衡量权值进行调整,引入IDF。
IDF:逆向文档频率,对于词频赋予权重。对于比较常见的词语赋予较小的权重,而相对应不常见的词语赋予较大的权重,在进行IDF的计算的时候需要一个语料库。
IDF = log(语料库文档总数/(包含该词文档总数)+1)、包含该词文档总数可以为0。
TF-IDF算法:就是将TF值 乘以 IDF值得到一个最终的值,来表述词语对于文档的重要程度。最终的TF-IDF的值越大,说明这个词语对于文章越重要。
算法由二部分定义:
TF:词频。一个字词在一个文本中出现的频率。
TF = 某词在文章出现的次数/文章中总词数
但是在文章中出现最多的词语很可能是:“的”,“地”,“是”等词语,但是这样的词语对于文章的关键性没有什么具体的帮助,这样的词语称之为停用词。在文章中需要将停用词进行过滤,才可以进行评估。
经过上述分析,可以简单的知道文本提取关键词是怎么回事,但是对于停用词进行过滤之后,所剩下的词语的词频很可能是相同的:例如“中国”、“足球”、“出现”在经过过滤之后的出现次数是一样的,但是由生活交流可以了解到 ”出现“相对于"中国"、“足球”不是那么的常见,所以可以分析出,“出现”这个词语对于这篇文章的重要性较大,所以需要通过一个衡量权值进行调整,引入IDF。
IDF:逆向文档频率,对于词频赋予权重。对于比较常见的词语赋予较小的权重,而相对应不常见的词语赋予较大的权重,在进行IDF的计算的时候需要一个语料库。
IDF = log(语料库文档总数/(包含该词文档总数)+1)、包含该词文档总数可以为0。
TF-IDF算法:就是将TF值 乘以 IDF值得到一个最终的值,来表述词语对于文档的重要程度。最终的TF-IDF的值越大,说明这个词语对于文章越重要。
相关文章推荐
- TF-IDF在关键词自动提取、计算文本相似度和摘要自动生成上的应用
- TF-IDF与余弦相似性文本处理:自动提取关键词、找出相似文章
- Python TF-IDF 算法 提取文本关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- 短文本分析----基于python的TF-IDF特征词标签自动化提取
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- 词语相似度计算:4、提取文本tf、tfidf特征
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- 短文本分析----基于python的TF-IDF特征词标签自动化提取
- TF-IDF提取行业关键词
- 关键词提取方法学习总结(TF-IDF、Topic-model、RAKE)
- TF-IDF提取关键词并用余弦算法计算相似度
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- 文本特征值提取,采用结巴将文本分词,tf-idf算法得到特征值,以及给出了idf词频文件的训练方法
- 短文本分析----基于python的TF-IDF特征词标签自动化提取
- TF-IDF与余弦相似性的应用(一):自动提取关键词