您的位置:首页 > 大数据

大数据:Web广告

2013-02-23 16:26 211 查看
大数据:Web广告

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第八章的总结。

1 定向广告:Web广告按照某个用户的兴趣来选择,使得Web服务通过广告收益来支持运行。

2 在线及离线算法:得到所有数据才产生答案的传统算法称之为离线算法。在线算法必须对流中的每一个元素都立即作答,此时仅对过去的信息有所了解,对未来的数据一无所知。

3 贪心算法:在线算法采用贪心策略,算法每一步的选择基于某个目标函数的最小化来进行。

4 竞争率:在所有可能的输入情况下,通过最小化在线算法与最优离线算法的收益比来度量在线算法的质量。

5 二部图匹配:两个节点集合,寻找两个集合节点相连构成边的集合,最大化边数,每个节点的出现都不会超过一次。

6 匹配问题的在线解决方案:在二部图中寻找匹配的一个贪心算法对边按照某种方式排序,依次对每条边处理。可以证明该算法的竞争率是1/2。

7 搜索广告管理:搜索引擎收到广告商对某些查询搜索的投标。对某个搜索查询,某个广告会被显示,一旦有人点击广告,广告商要向搜索引擎付费。

8 Adwords问题:Adwords问题的数据包含广告商对某些搜索查询的一系列投标集合,每个广告商的总预算,及每个查询提交后每条广告的历史点击率。还有搜索引擎收到的搜索查询流。目标是对每条查询选择在线的固定大小的广告集予以显示,最大化搜索引擎利益。

9 简化adwords问题:每个投标非0即1,每条查询仅对应一条广告,所有广告商预算相等。贪心算法促使搜索引擎将广告分配给对查询投标并有剩余预算的广告商。竞争率1为1/2.

10 Balance算法:相较贪心算法,Balance算法会将查询对应的广告分配给那个对该查询投标并且剩余预算最多的广告商,一旦多个广告商的剩余预算相等,可从中随机选择。两个广告商时竞争率达3/4,过个广告商时可达1-1/e 约为63%。

11 一般性adwords问题的balance算法:广告商出价不同,预算不同,不同查询点击率不同,balance算法将广告分配给最高函数x*(1-power(-f))值的广告商。x:投标价格和点击率乘积,f是广告商未使用的预算比列。

12 adwords实现:投标关键字与查询一致,将查询表示为词的排序表,投标保存在哈希表或类似结构中,哈希键就是排序表。

13 词集和文档匹配:若投标集合的所有词都出现在文档中,不管词语是否与投标中同序,也不管是否相邻,都认为投标和文档匹配。

14 词集合的哈希存储:将投标集合中的词按照低频优先存储,将第一个词作为哈希键。

15 投标匹配中的文档处理:文档中词按照低频优先处理。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: