您的位置:首页 > 其它

(Paper)使用LSH对Twitter做首报道检测(FSD)

2016-05-17 18:40 197 查看
本文地址:/article/10918260.html

《Streaming First Story Detection with application to Twitter》论文笔记

这篇论文使用改进的LSH算法进行首报道检测,针对Twitter。LSH算法在多媒体检索里面也是常用的。

主要内容:

改进单纯应用LSH算法至FSD以提高精度

继续改进以能处理网络流文本

继续改进以能处理Twitter数据



介绍FSD与LSH

由于单纯把LSH(近似近邻)用于取代FSD的最近邻导致效果不好,所以提出一种策略

如何在无限数据的web文档流上做FSD(文档流的特点)

如何在Twitter上做FSD(Twitter上垃圾信息多)

实验















事实上,还有其他策略,如全局的文档数量限制,保存近30天的













通过调整评分判定为新话题的阈值,得出图1

图1中没有限制bucket的大小

图1UMass系统用了28个小时,而本文方法用了2小时

图2单位是100个文档为一批



没有使用 @内的信息,因为希望算法能独立于各种流类型



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: