您的位置:首页 > 其它

计算广告学习笔记 4.3竞价广告系统-广告检索

2017-06-07 15:30 309 查看
对于GD的广告商比较少,所以不需要广告检索,但在广告网络中广告商数量非常大,就需要检索了。

广告的检索有两点是在普通搜索之外的,下面探讨,一个是布尔表达式检索的方式,另一个是长query的处理

其中讨论的Doc就是广告,说白了也就是广告商提出的一组条件。

下面是GD里面广告商做广告检索的方法



每个Conjunction就是对于某条广告广告主的要求的一类人群。

sizeof(Conjunction)大于sizeof(query),也就是说,比如某个广告商要求(广州的人并且大于18岁)或者(湖北的人并且年龄大于36岁),第一个conjunction=广州 并 大于18

这时候来了个展示的要求,该展示的查询是(广州的),那么就属于这种情况,这样无法满足广告主的需求,所以这个查询被抛弃。

和RSS订阅的研究方向有些类似。





后一个索引前面的0,1,2 代表size分布为0,1,2的conjunction大的分组,可以用按照上面提到的方法简化计算。

下面进入第二个问题,长query的查找



什么是理论上不需要考虑的文档,就需要在查询和doc之间建立一个相关性的函数。

如果这个相关性函数是线性的话,那么就可以进行剪枝,但是这种线性的函数不好找。但是一旦找到,就能提高检索和排序的效率

下面介绍



WAND就是为了建立这样一个好的相关性函数尽可能跳过一些无关的文档,目的是为了在query很长的时候进行有效的剪枝,剪枝的目的是为了限制检索出的TopN的个数尽量少,把好的doc覆盖住。

ub=上限

最后前N个的排序是在那个堆里面,通过这个流程,可以skip一些docs

因为原始的IR的检索方法中,对于某一个长的查询词,因为每个词都是should的关系,只可能先对每个查询词分别找到topn,然后合并在一起,然后再排序,这样的情况下,topN不可能太大(太大系统负担不起),直接会导致很多好的结果不会被包含进来,最终的结果就是检索的效果不好。Wand就是为了解决这样的问题。下图说明这一点



从图中可以看到 好的方面是,非常相关的上升;不好的方面是:由于评价函数,所以重复率也会上升。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: