TF-IDF提取关键词并用余弦算法计算相似度
2013-12-25 12:08
609 查看
TF-IDF算法是一个很易懂的关键词提取算法,算法易实现,易懂且易操作,缺陷是将词频作为唯一考虑因素,且对于位置没有敏感性,位置的问题可以通过人为添加权重的方式改善,比如给第一段最后一段,或者每一段的第一句话加高权重。。。(类似于总分,总分总啥的文本结构吧)
TF-IDF算法简单描述:
TF是Term Frequency的缩写,即单纯的计算词频,比如,两句话分别是“我最喜欢吃我做的土豆”,“我最喜欢海”,因为是简介,就不讲究完备性,不将这句话分词,只考虑每个字,那么,第一句话中,“我”出现了两次,其他的字各出现了一次,第二句中,所有的字都出现了一次,那么计算TF的时候,只用将每个字的出现次数除以总字数即可:
TF = 文章中出现次数/文章总词数
【我:0.2,最:0.1,喜:0.1,欢:0.1,吃:0.1,做:0.1,的:0.1,土:0.1,豆:0.1】
【我:0.2,最:0.2,喜:0.2,欢:0.2,海:0.2】
为了避免“我”,"最"等等stop word占权重太大,考虑将这种会出现在大部分文章中的字减小概率,这时候引用IDF(Inverse Document Frequency),就是一个如果含有该词的文档出现次数越多,值越小的公式
IDF = log(总文章数/含有该词的文章数)
为了避免出现除0的情况出现,一般会给分母+1,类似于laplace平滑意义:
IDF = log(总文章数/(含有该词的文章数+1))
TF-IDF的值,就是将TF*IDF,然后排序,值高的词认为更有意义,作为代表性输出
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
余弦相似度是计算文档相似度的方法
参考http://blog.csdn.net/whzhcahzxh/article/details/17528261里面的实现
将一段话转换为语料库后,得到多维度向量,用a*b/(|a|*|b|)计算余弦值,值越大两个向量越相似
TF-IDF算法简单描述:
TF是Term Frequency的缩写,即单纯的计算词频,比如,两句话分别是“我最喜欢吃我做的土豆”,“我最喜欢海”,因为是简介,就不讲究完备性,不将这句话分词,只考虑每个字,那么,第一句话中,“我”出现了两次,其他的字各出现了一次,第二句中,所有的字都出现了一次,那么计算TF的时候,只用将每个字的出现次数除以总字数即可:
TF = 文章中出现次数/文章总词数
【我:0.2,最:0.1,喜:0.1,欢:0.1,吃:0.1,做:0.1,的:0.1,土:0.1,豆:0.1】
【我:0.2,最:0.2,喜:0.2,欢:0.2,海:0.2】
为了避免“我”,"最"等等stop word占权重太大,考虑将这种会出现在大部分文章中的字减小概率,这时候引用IDF(Inverse Document Frequency),就是一个如果含有该词的文档出现次数越多,值越小的公式
IDF = log(总文章数/含有该词的文章数)
为了避免出现除0的情况出现,一般会给分母+1,类似于laplace平滑意义:
IDF = log(总文章数/(含有该词的文章数+1))
TF-IDF的值,就是将TF*IDF,然后排序,值高的词认为更有意义,作为代表性输出
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
余弦相似度是计算文档相似度的方法
参考http://blog.csdn.net/whzhcahzxh/article/details/17528261里面的实现
将一段话转换为语料库后,得到多维度向量,用a*b/(|a|*|b|)计算余弦值,值越大两个向量越相似
相关文章推荐
- TF-IDF在关键词自动提取、计算文本相似度和摘要自动生成上的应用
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- Python TF-IDF 算法 提取文本关键词
- [转] TF-IDF与余弦相似性的应用(一):自动提取关键词
- 关键词权重计算算法 - TF-IDF
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- tf-idf关键词提取算法
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一):自动提取关键词
- TF-IDF与余弦相似性的应用(一) 自动提取关键词
- 关键词权重计算算法 - TF-IDF
- TF-IDF与余弦相似性的应用(一):自动提取关键词