(Paper)使用LSH对Twitter做首报道检测(FSD)
2016-05-17 18:40
197 查看
本文地址:/article/10918260.html
《Streaming First Story Detection with application to Twitter》论文笔记
这篇论文使用改进的LSH算法进行首报道检测,针对Twitter。LSH算法在多媒体检索里面也是常用的。
主要内容:
改进单纯应用LSH算法至FSD以提高精度
继续改进以能处理网络流文本
继续改进以能处理Twitter数据
介绍FSD与LSH
由于单纯把LSH(近似近邻)用于取代FSD的最近邻导致效果不好,所以提出一种策略
如何在无限数据的web文档流上做FSD(文档流的特点)
如何在Twitter上做FSD(Twitter上垃圾信息多)
实验
事实上,还有其他策略,如全局的文档数量限制,保存近30天的
通过调整评分判定为新话题的阈值,得出图1
图1中没有限制bucket的大小
图1UMass系统用了28个小时,而本文方法用了2小时
图2单位是100个文档为一批
没有使用 @内的信息,因为希望算法能独立于各种流类型
《Streaming First Story Detection with application to Twitter》论文笔记
这篇论文使用改进的LSH算法进行首报道检测,针对Twitter。LSH算法在多媒体检索里面也是常用的。
主要内容:
改进单纯应用LSH算法至FSD以提高精度
继续改进以能处理网络流文本
继续改进以能处理Twitter数据
介绍FSD与LSH
由于单纯把LSH(近似近邻)用于取代FSD的最近邻导致效果不好,所以提出一种策略
如何在无限数据的web文档流上做FSD(文档流的特点)
如何在Twitter上做FSD(Twitter上垃圾信息多)
实验
事实上,还有其他策略,如全局的文档数量限制,保存近30天的
通过调整评分判定为新话题的阈值,得出图1
图1中没有限制bucket的大小
图1UMass系统用了28个小时,而本文方法用了2小时
图2单位是100个文档为一批
没有使用 @内的信息,因为希望算法能独立于各种流类型
相关文章推荐
- Glib学习(10) 关系和元组 Relations and Tuples
- codeforces 675D D. Tree Construction(线段树+BTS)
- Python距离包的实现
- PostgreSQL sql简单分页
- JSP-表单元素示例
- 我使用过的Linux命令之file - 检测并显示文件类型
- mysql 让一个存储过程定时作业的代码
- TextView与Html相结合的具体方法?
- 七牛镜像的使用
- python:从excel中读出接口协议,将部分响应结果写入另一个excel文件
- PHP在mac上面配置
- JAVA线程-JAVA同步
- Java实现图片的上传以及下载 Tomcat服务器
- c#-mongodb连接出错:MongoDB.Driver.MongoAuthenticationException: Invalid credentials for database...
- awk内置函数gsub
- Azkaban——使用指南
- jquery 根据td中的checkebox元素该行所有td中的元素
- instanceof的用法
- dos下配置cl编译器进行oracle的pro编程
- Android 点9图片