Popularity-aware spatial keyword search on activity trajectory-阅读笔记
2017-03-02 19:08
260 查看
阅读笔记
摘要
科技的发展,轨迹数据的收集越来越方便介绍活动轨迹的广泛应用和研究价值
本文提出了一个活动轨迹搜索方法 TkSK
能发现更多信息,用户活动轨迹能反映地点和用户喜好的关系。
本文的综合解决方案:
新的相似函数
混合索引结构
高效搜索算法
进一步优化
1 简介
介绍当前研究现状:设计有效的活动轨迹索引结构
高效搜索算法
从活动轨迹中挖掘特征和信息
不足:只关注原始时空特征
但是,近年来基本位置信息应用的不断兴起,如
Foursquare 可以给地点添加信息
Facebook Place, Bikely
Flickr 给地点上传图片,图片内嵌信息
赋予了轨迹相关的语义信息,这些大大丰富了活动轨迹数据库,活动轨迹信息无处不在
地点和多媒体信息:文本,图片,视频等关联了起来
本文中:活动轨迹是a finite sequence of timestamped locations(带有各种标签)
标签也可通过图片内容识别获取
搜索问题:
空间检索,正文检索
POI:信息点
旅行中,地点间关联的可行性和优先级
根据活动轨迹可以过滤一些不可行的活动地点组合,根据体验和距离因素
难点:
相似函数
搜索时,把地点和受欢迎程度考虑进去
三个因素:距离,关键词,词语流行度
检索方法(主要难点)
空间相似度和是否同属于一个活动也要考虑进去
ITB-tree,拓展了TB-tree,修剪,使用了辅助信息
查询效率
检索顺序
检索程度(到什么时候)
新:启发式搜索,改进策略,停止条件
2 问题定义
2.1 模型及定义
Semantic Place有意义的地理位置点,如房屋设施,地标,POI
Activity Trajectory
T = (P1,P2,P3,...,Pn) Pi=(x,y,t,sp,A)为时空点(x,y,t)、Semantic Place,A相关注释 A = (w1,w2,……)
Keyword Popularity
pw(sp):轨迹中包含sp上包含关键词w的次数 keyword query-Q=(x,y,tw,qw,a) tw:一个时间窗口 qw:一组关键词 a:比重
Similarity
T和Q的相似程度,和轨迹中最大距离,关键词最大流行程度有关 最后对每个关键词的相似程度求加权平均,获得总体的相似程度
S(τ,Q)=1|qω|∑ω∈qωSω(τ,Q)
把所有关键词的相似度相加,再除以关键词的个数 单个关键词中,查询和轨迹的相似度为
Sω(τ,Q)=maxP∈τ,P.t∈tω{α(1−d(P,Q)Dmax)+(1−α)ρω(P.sp)ρω,0,if ω∈ P.Aotherwise
Dmax是两个轨迹中两点间的最大距离,使用1-标准化距离是因为距离越大,相似度越低,而词语流行度越高,相似度越高
ρω是关键词ω的最大流行度
ρω(P.sp)ρω称为 relative keyword popularity(相当于标准化)
因为两个变量都进行了标准化,范围都是(0,1],所以S的取值范围是(0,1]
这里没有考虑otherwise中的情况?
Problem Statement
TkSK算法,输入D,Q,k,返回k个相似度得分最高的轨迹
2.2 Baseline algorithm
MBR用R-tree做索引
维护一个堆 H, 把结果(Trajectory_id ,score)保存到 list C(通过score排序)
在无法得到比C中k个元组更高score时停止
upper bound function:
Sub(H,Q)=α⋅(1−dmin(Nt,Q)Dmax)+(1−α)
3 检索结构
R树的介绍R-tree:把每个路径集当作独立点的集合
Baseline算法是distance-oriented strategy,但是在本相似函数中,距离不是唯一标准
3.1 预备知识:TB-tree
使用R-tree的前提假设是所有的点都是独立的。TB树的数据结构是严格按照保存轨迹数据的形式而构建的,如叶子节点只包含属于同一轨迹的点。
3.2 混合索引结构 ITB-tree
ITB树的叶子节点N (tid,mbr,ifile)tid:唯一标识
mbr:节点的最小包含边界,3D矩形
ifile:指向被索引关键词的文件,其中包含一个哈希表,用于索引关键词。
非叶子节点N (cp,mbr,ifile)
cp:指向子节点的指针列表
mbr:所有子节点的最小边界
ifile:同上
4 搜索过程
搜索框架:
初始化
把根节点添加到堆里面
遍历树
取出堆顶部元素到N
如果N的时间窗口和查询条件重合,并且含有查询关键词
如果N不是叶子节点
把N添加到堆
否则
用N.tid更新候选轨迹
更新结果集
满足提前退出条件则退出循环
返回结果
4.1 启发式搜索
根据权值的不同,搜索路径随时调整ITB-tree和查询的相似度定义
F(N,Q)=1qω∑ω∈qωFω(N,Q)
Fω(N,Q)={α(1−dmin(N,Q)Dmax)+(1−α)N.file[ω]ρω0,if ω∈N.fileotherwise
4.2 细化
对每个活动路径进行评分计算,通过二分选择的方法,能尽可能早地达到结束条件使用visited标记,避免重复访问
优化
搜索优化
含有相同轨迹越少的越有可能具有更高的相似度fw(N) = 1+ 1/(Cw(N)) Cw(N)是节点N中含有关键词w的不同轨迹个数
实验
环境配置
数据:轨迹数据
GeoLife project,包括北京用户的working,shopping,dining,sports
POI
DIANPING.COM
Google Search
取10个关键词
性能
k相关工作
总结
相关文章推荐
- 【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion
- Building on Quicksand - Pat Helland, Dave Campbell 阅读笔记
- Android官方Training阅读笔记 ---- Managing the Activity Lifecycle(Recreating an Activity) (四)
- 【乐视云学习笔记】关于Letv乐视云点播的视频暂停之后,按home回到桌面后重新onResume回到Activity,视频自动播放的情况
- 【乐视云学习笔记】关于Letv乐视云点播的视频暂停之后,按home回到桌面后重新onResume回到Activity,视频自动播放的情况
- Expert One-on-One Oracle阅读笔记
- 论文阅读笔记-Siamese instance search for tracking
- Android官方Training阅读笔记 ---- Managing the Activity Lifecycle(Stopping and Restarting an Activity) (三)
- Android官方Training阅读笔记 ---- Managing the Activity Lifecycle(Pausing and Resuming an Activity) (二)
- Attention to Scale: Scale-Aware Semantic Image Segmentation论文阅读笔记
- android activity onSearchRequested()
- 【点击模型学习笔记】Inferring clickthrough rates on ads from click behavior on search results_wsdm2011
- 【点击模型学习笔记】A survey on click modeling in web search_Lianghao Li_ppt
- 深度学习笔记(一)空间金字塔池化阅读笔记Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
- Android API Guides 阅读笔记(2)----Activity
- [阅读笔记] A Report on the Human Computation Workshop (HCOMP, 2009)
- android菜瓜笔记之onActivityResult 的作用与用法
- 《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》阅读笔记与实现
- 阅读Activity源码笔记
- Perform search on Android within the same activity