搜索引擎广告的检索和匹配算法
2017-11-23 23:58
351 查看
1.搜索引擎广告的检索
广告检索的过程:
广告检索就是通过对给定的网民的信息需求,在广告库(Ad Set)中找到相关的广告,简单的来看,可以把Ad Retrieval当做是文本检索(TR)领域的一个应用。
文本检索的两种思路: Doc Selection(Classification) 和 Doc Ranking(Ranking),在文件检索中,通常利用相似度来计算,而相似度是一个度量概念,所以在
实际的文件检索中通常使用的ranking的方法,然后在Ad Retrieval中,因为广告检索的的判断标准不是相似度,而是ectr*bid结合各方面因素进行权衡,在实际经验中,
发现采用classification的方法可能会更好一点。
一个可能的搜索广告触发子系统:
query分析: topic model等语义分析方法,而且必须在线实时,由于query词可能比较少,有涉及query expansion的技术。
其中query expansion的主要思路有:
相关性反馈: 利用网民主动选择的文档作为原query信息的扩展。
伪相关反馈:利用初始优质检索文件作为原query信息的扩展。
基于词典的扩展:利用或自动构建term文件关联,对原query进行扩展。
广告特征分析:这里需要额外考虑的是广告本身的特征。可以异步,offline进行分析。
关于relevence建模的方法,可见下图:
其中:
1)向量空间建模方法:它默认有一个前提,就是term之间相互独立。
存在问题: 向量的每一维是什么,如何weighting(TFIDF等变种),如何选择计算相似度的方法(内积,余弦,等各种距离计算方法)。但实现简单,可快速工程化,不过进 行参数调试过程中非常晦涩。
VSM关键技术:
分词:分词的粒度问题:大粒度检索精准,但是可能不全面;小粒度检索全面但是不精确。
赋权(term weighting):短文本信息量太少。
解决办法:a) 通过改进全局term权重,采用idf的变种iqf,icf或者全新的全局权重的定义:CTR作为term的权重
b) query expansion,解决文本短小TF为基本1的问题
c) 全新的term weighting建模方法:f(d,w).
filtering:doc list返回后进行rank时计算score.
2.搜索引擎广告的匹配算法
2.1 搜索引擎广告的匹配模式有三种:精确匹配、短语匹配、广泛匹配。其中
精确匹配:等同
短语匹配:包含
广泛匹配:相关
不过产品定义的也不是一成不变的,各匹配模式按产品规则有特定的Ad Retrieval过程。
2.2广告触发方法与匹配模式:
精确匹配:直接查找最进准的,从数据库里面找到keyword完全一致的广告
短语匹配:
1. 针对query进行子片段的抽取
2. 然后将每一个子片段查hash索引,得到相关广告
广泛匹配:
通过IR的方法进行查找,定义相关性或者训练模型,得到query和广告的similarity,
然后判断相似度是否满足要求。
因为流量分布是长尾的,其中很大一部分的query是只出现一次的,而且流量作为商品具有不可枚举,同一个语义的query其表达方式多种多样,所以
仅仅通过精确匹配是很难满足所有的情况的。
刘鹏《计算广告学》
百度开发学习社区《计算广告学》
广告检索的过程:
广告检索就是通过对给定的网民的信息需求,在广告库(Ad Set)中找到相关的广告,简单的来看,可以把Ad Retrieval当做是文本检索(TR)领域的一个应用。
文本检索的两种思路: Doc Selection(Classification) 和 Doc Ranking(Ranking),在文件检索中,通常利用相似度来计算,而相似度是一个度量概念,所以在
实际的文件检索中通常使用的ranking的方法,然后在Ad Retrieval中,因为广告检索的的判断标准不是相似度,而是ectr*bid结合各方面因素进行权衡,在实际经验中,
发现采用classification的方法可能会更好一点。
一个可能的搜索广告触发子系统:
重要的环节:
query分析: topic model等语义分析方法,而且必须在线实时,由于query词可能比较少,有涉及query expansion的技术。
其中query expansion的主要思路有:
相关性反馈: 利用网民主动选择的文档作为原query信息的扩展。
伪相关反馈:利用初始优质检索文件作为原query信息的扩展。
基于词典的扩展:利用或自动构建term文件关联,对原query进行扩展。
广告特征分析:这里需要额外考虑的是广告本身的特征。可以异步,offline进行分析。
Classifier:
关于relevence建模的方法,可见下图:
其中:
1)向量空间建模方法:它默认有一个前提,就是term之间相互独立。
存在问题: 向量的每一维是什么,如何weighting(TFIDF等变种),如何选择计算相似度的方法(内积,余弦,等各种距离计算方法)。但实现简单,可快速工程化,不过进 行参数调试过程中非常晦涩。
VSM关键技术:
分词:分词的粒度问题:大粒度检索精准,但是可能不全面;小粒度检索全面但是不精确。
赋权(term weighting):短文本信息量太少。
解决办法:a) 通过改进全局term权重,采用idf的变种iqf,icf或者全新的全局权重的定义:CTR作为term的权重
b) query expansion,解决文本短小TF为基本1的问题
c) 全新的term weighting建模方法:f(d,w).
filtering:doc list返回后进行rank时计算score.
2)基于machine learning的建模: 基于样本标注的relevance model: ctr建模+用户体验建模。其优点是理论体系完备,能更好的利用big data来训练模型和调节参数,更好的fit data。
2.搜索引擎广告的匹配算法
2.1 搜索引擎广告的匹配模式有三种:精确匹配、短语匹配、广泛匹配。其中
精确匹配:等同
短语匹配:包含
广泛匹配:相关
不过产品定义的也不是一成不变的,各匹配模式按产品规则有特定的Ad Retrieval过程。
2.2广告触发方法与匹配模式:
精确匹配:直接查找最进准的,从数据库里面找到keyword完全一致的广告
短语匹配:
1. 针对query进行子片段的抽取
2. 然后将每一个子片段查hash索引,得到相关广告
广泛匹配:
通过IR的方法进行查找,定义相关性或者训练模型,得到query和广告的similarity,
然后判断相似度是否满足要求。
因为流量分布是长尾的,其中很大一部分的query是只出现一次的,而且流量作为商品具有不可枚举,同一个语义的query其表达方式多种多样,所以
仅仅通过精确匹配是很难满足所有的情况的。
刘鹏《计算广告学》
百度开发学习社区《计算广告学》
相关文章推荐
- 搜索引擎广告的检索和匹配算法
- 计算广告:检索与投放算法总结
- ElasticSearch27:初识搜索引擎_精确匹配与全文检索的对比分析
- 图像检索服务器编写问题记录——SIFT尺度不变特征变换匹配算法学习
- 【广告算法工程师入门 2】广告检索和转化流程
- 广告匹配的算法
- google的广告匹配算法其实也挺搞的
- 搜索引擎--范例:中英文混杂分词算法的实现--正向最大匹配算法的原理和实现
- 模板匹配之归一化相关算法实现
- 基于灰度的模板匹配算法(三):划分强度一致法(PIU)
- 多正则表达式匹配 (Multiple Regular Expression Matching) 中的动态 DFA 算法
- Trie Tree匹配算法实现
- 【二分匹配匈牙利算法模板】
- 手把手教你做关键词匹配项目(搜索引擎)---- 第二十一天
- 压缩感知重构算法之稀疏度自适应匹配追踪(SAMP)
- 字符串模式匹配算法实现1
- 图像匹配算法之初探尺度不变特征变换(SIFT)算法
- 数据结构(关于串的KMP匹配算法及其改进)
- hihocoder 1122最大二分匹配匈牙利算法
- 二分图的最大匹配、完美匹配和匈牙利DFS算法