您的位置：首页 > 其它

搜索引擎广告的检索和匹配算法

2017-11-23 23:58 351 查看

1.搜索引擎广告的检索

广告检索的过程：

广告检索就是通过对给定的网民的信息需求，在广告库(Ad Set)中找到相关的广告，简单的来看，可以把Ad Retrieval当做是文本检索(TR)领域的一个应用。

文本检索的两种思路： Doc Selection(Classification) 和 Doc Ranking(Ranking)，在文件检索中，通常利用相似度来计算，而相似度是一个度量概念，所以在

实际的文件检索中通常使用的ranking的方法，然后在Ad Retrieval中，因为广告检索的的判断标准不是相似度，而是ectr*bid结合各方面因素进行权衡，在实际经验中，

发现采用classification的方法可能会更好一点。

一个可能的搜索广告触发子系统：

重要的环节：

query分析： topic model等语义分析方法，而且必须在线实时，由于query词可能比较少，有涉及query expansion的技术。

其中query expansion的主要思路有：

相关性反馈：利用网民主动选择的文档作为原query信息的扩展。

伪相关反馈：利用初始优质检索文件作为原query信息的扩展。

基于词典的扩展：利用或自动构建term文件关联，对原query进行扩展。

广告特征分析：这里需要额外考虑的是广告本身的特征。可以异步，offline进行分析。

Classifier:

关于relevence建模的方法，可见下图：

其中：

1）向量空间建模方法：它默认有一个前提，就是term之间相互独立。

存在问题：向量的每一维是什么，如何weighting(TFIDF等变种)，如何选择计算相似度的方法(内积，余弦，等各种距离计算方法)。但实现简单，可快速工程化，不过进行参数调试过程中非常晦涩。

VSM关键技术：

分词：分词的粒度问题：大粒度检索精准，但是可能不全面；小粒度检索全面但是不精确。

赋权(term weighting)：短文本信息量太少。

解决办法：a) 通过改进全局term权重，采用idf的变种iqf,icf或者全新的全局权重的定义：CTR作为term的权重

b) query expansion,解决文本短小TF为基本1的问题

c) 全新的term weighting建模方法：f(d,w).

filtering:doc list返回后进行rank时计算score.

2）基于machine learning的建模：
基于样本标注的relevance model:  ctr建模+用户体验建模。其优点是理论体系完备，能更好的利用big data来训练模型和调节参数，更好的fit data。

2.搜索引擎广告的匹配算法

2.1 搜索引擎广告的匹配模式有三种：精确匹配、短语匹配、广泛匹配。其中

精确匹配：等同

短语匹配：包含

广泛匹配：相关

不过产品定义的也不是一成不变的，各匹配模式按产品规则有特定的Ad Retrieval过程。

2.2广告触发方法与匹配模式：

精确匹配：直接查找最进准的，从数据库里面找到keyword完全一致的广告

短语匹配：

1. 针对query进行子片段的抽取

2. 然后将每一个子片段查hash索引，得到相关广告

广泛匹配：

通过IR的方法进行查找，定义相关性或者训练模型，得到query和广告的similarity，

然后判断相似度是否满足要求。

因为流量分布是长尾的，其中很大一部分的query是只出现一次的，而且流量作为商品具有不可枚举，同一个语义的query其表达方式多种多样，所以

仅仅通过精确匹配是很难满足所有的情况的。

刘鹏《计算广告学》

百度开发学习社区《计算广告学》

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 搜索引擎计算广告

相关文章推荐

新的分享

章节导航