【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion
2012-04-05 11:46
676 查看
背景:
这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ,主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80。这篇论文的目的是Query推荐,也就是关键词推荐。在搜索引擎、广告竞价平台中,关键词推荐已经是标配的产品。
同样是搜索引个词,不同的人有不同的意图。这是为什么呢?原因是一个词可能对应到多个概念(或者说是多个类目)。例如“glodiator”(角斗士)这个词,用户可能是想搜索电影,也有人想搜索角斗士的历史,也可能是找著名的角斗士。其实这种情况搜索引擎已经解决的挺好了,搜索引擎一般会同时考虑准确率和多样性的问题,一般它会把用户query的多种意图都检索出来。例如“角斗士”这个Query,搜索引擎可能包百科页面(角斗士历史)、视频(电影)、blog(用户评价)、图片(电影海报、演员)都返回给检索用户。
在很多论文中,搜索引擎希望通过用户的查询或者浏览历史来做更好的判断。这个想法看似简单,时间上比较困难。试想,前一分钟用户还在搜索“nokia 手机”,后一分钟用户搜索“连衣裙”或者“nokia 手机壳”,一个是从手机概念转变为女装,另外一个是从手机概念转变为“手机配件”。在这种情况下,你必须记录每个用户在session时间内的浏览历史,根据用户查询的概念来看和当前的概念是否有关系。当当前的概念比较模糊的时候,看能否通过以前的历史做相应的补充。
聚类过程
论文中介绍的过程很简单,先做概念(concept)的聚类,然后找到concept,用每个concept中浏览次数最多的Query作为代表。用户浏览次数的最多的Query作为cluster的代表,这本身就是一种折中和简单的方法。或许从用cluster中提取一批具有代表性的词或者短语来代表更有说服力。相关工作:
以前的工作更多的是看用户的点击反馈。关键词分类可以用点击反馈,CTR预估是点击返回,协同过滤也可以看成是点击反馈。Session-Based approaches:Boldi 的Query-Flow方法
Doc-Click Based approaches:或者可以说是Query-Click URL based bipartite graph 方法。这里更多的是指Random Walk的方法。关注于通过二分图得到query的相关关系。
Query-Doc转移概率矩阵
从Baeza-Yates,Beeferman和Berger,Wen ,有不少通过二部图来计算query相似性,或者聚类的文章。这里转移概率的定义没有什么特别的东西,甚至非常简单。就是通过query节点看发散概率,或者通过URL节点看发散概率。时间上在《Random
Walks on the Click Graph》 这篇文章中对转移概率的定义更加细致一些。
在这里实际上还是根据Q-U的矩阵× U-Q的矩阵 迭代最后再乘 Q-U的矩阵。
最终时间上还是得到一个Query-URL向量的一个VSM模型。两个Query直接的距离,转换为两个URL向量之间的距离。从本质上看,这个思想是非常基础的。但是论文后面的亮点是对Query距离计算。
Query用URL向量表示,那么如何减少需要计算的QueryPair 数量就是非常重要的。他把URL看成倒排索引,只有两个Query有共同的URL的时候才需要计算相关性。
后面很长的篇幅是将计算的实现,以及如何应用到分布式上面去。
Concept:
用cluster中Query的URL向量的均值向量表示。相关文章推荐
- Query-Adaptive Late Fusion for Image Search and Person Re-identification阅读笔记
- VGG:Very Deep Convolutional Networks for Large-Scale Image Recognition阅读笔记
- 《Context Aware Query Image Representation for Particular Object Retrieval》论文阅读
- Weak Attributes for Large-Scale Image Retrieval 阅读笔记
- 论文阅读《Hamming embedding and weak geometric consistency for large scale image search》
- 论文笔记:Concept Mask: Large-Scale Segmentation from Semantic Concepts
- [深度学习] Very Deep Convolutional Networks for Large-Scale Image Recognition(VGGNet)阅读笔记
- Hamming embedding and weak geometric consistency for large scale image search
- 【论文阅读笔记】Segmentation as Selective Search for Object Recognition
- Scale-Aware Face Detection阅读笔记
- Learning Spatial-Aware Regressions for Visual Tracking 阅读笔记
- 【论文阅读笔记】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION
- SANet:Structure-Aware Network for Visual Tracking 阅读笔记
- Large Scale Distributed Deep Networks 阅读笔记
- Siamese Instance Search for Tracking 阅读笔记
- 论文阅读笔记-Siamese instance search for tracking
- 《Very Deep Convolutional Networks for Large-Scale Image Recognition》论文阅读
- 杂-CVPR2013 吴佳俊 Harvesting Mid-level Visual Concepts from Large-scale Internet Images
- 笔记:Deep attributes from context aware regional neural codes
- The Proposal of Service Oriented Data Mining System for Solving Real-Life Classification--阅读笔记