您的位置:首页 > 其它

的Tf-idf值分词计算列举

2016-02-28 15:43 211 查看
(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。

例如:一篇文档分词后,总共有500个分词,而分词”十二seo”出现的次数是20次,则TF值是: tf =20/500=2/50=0.04

逆向文件频率:一个分词出现在的文档数越少越能和其它文档区别开来。算法是: log((总文档数/出现该分词的文档数)+0.01)

;(注加上0.01是为了防止log计算返回值为0)。

例如:一个文档库中总共有50篇文档,2篇文档中出现过“十二seo”分词,则idf是:

Idf = log(50/2 + 0.01) = log(25.01)=1.39811369

TF-IDF结合计算就是 tf*idf,比如上面的“十二seo”分词例子中:
TF-IDF = tf* idf = (20/500)* log(50/2 + 0.01)= 0.04*1.39811369=0.0559245476
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: