您的位置：首页 > 其它

唐平中讲座笔记 Reinforcement mechanism design 20171107

2017-11-07 12:09 204 查看

渣排版预警，纯草稿。。。

唐平中。研究方向是经济学和ai方向，机制设计和拍卖设计。

内容：广告优化的方法论，自动优化。

【内容】

Basics on mechanism design and resrve pricing

Reinforcement mechanism design:

1.Reserve pricing in ad auctions (在广告拍卖中占到保留位，怎么算到最优)

2.Seller ranking in e-commerce.

【前言】

Auctions design and revenue optimization 拍卖设计

拍卖：

拍卖的设计涉及钱

谁能够拿到物品，每个人应该付多少钱。

目标是什么：

钱

例子：1个用户，1个广告主。

q=1 if sold, q=0 if reserve;

buyer（advertiser)：valuation x from Uniform [0,1]

假设所有信息大家都知道

buyer utility = x(q-t)

Auction = set a price p(in this case)

buyer decsion: buy if x>p

max(p(1-p)),solution: p = 0.5

可以推广到任何分布，改为f(p)*(f(1-p))即可

1个用户，n个广告主

1.first-price auction

known:Bayes equilibrium to bid (n-1) xi/n

Expected revenue:(n-1)/(n+1)

2.second price auction

known:Dominant strategy to bid truthfully

Expected revenue:(n-1)/(n+1)

结论:如果你不设保留价的话，那么你的期望收入和二价一样。无需证明（x

二价定律失效的例子：

毕加索的画卖给了王健林，2800万，但是王健林心理预期很高，但是他遇到了一些week buyer.所以付钱价格很低。

解决方案：设最小保留价格，比如我设4000万的门槛。

但这只是单次拍卖。

最优情况：

如果有1个物品，n个拍卖者

大家的xi都是uniform[0,1]

解决方案：second price auction with reserve 0.5

think of 0.5 as seller's bid, competitive for strong buyers

当大家的分布不一样的时候，查看07年诺贝尔论文。Myerson,1981,Nobel prize 2007

Myerson的问题：

没有按照bid排序，会影响公平性。

有不同的门槛。

Myerson may charge too much.可能会使得卖家流失。

(solution:objective: a revenue + b welfare + c clicks)(MSR论文) 平台+广告主+用户

雅虎:通过手动调整保留价，使得收入增加10%

High frequency mechanism design

区别：

1.高频的环境

2.Dynamic set of players

3.Rational,reflected in the data

4.Complicated,dynamic decision variables

工业界的现状：

gsp在工业界没有什么用，vcg也没什么用。

经常去调整广告的拍卖参数。

Ad hoc，Costly

能不能有一个算法来自动调整参数，使得能够得到很好的结果。

【主题】

Reinforcement mechanism design

这个不是机器学习，原因是：

我的方法是想得到更好的参数，使得广告收益更高。之前参数的data和我现在的data无关，所以这不是机器学习。

从一组参数很难预测出另外一套全新的参数的结果，有一些阶跃的东西，总之，这就不是一个machine learning

Dynamic GSP auctions

一堆关键字，平台会收到广告主的报价，然后我们能会回复kpis。

然后我们都会根据反应来修正自己的行为。

这实际上是一个Markov，每次的报价都depend on 昨天的bid distribution和昨天的kpis

f(t+1) depend on f(t)

平台的参数制定，把整个广告主和自己的平台当作一个整体，action是每天调整参数，revenue就是每天赚得钱。

对于状态一，然后一堆bidder根据昨天的kpis和参数出了一次价格，然后可以推出新的状态。

每个关键字我们只看出价最高的bidder，不会让出价变动很大。

我们的bidder model使用rnn

输入：

kpis containing stats of several consecutive days

time-sepecific features.

输出：

bid distribution for the next time step（bid不容易预测的准，所以我们直接预估分布，而且头部buyers也是会变动）

结果的话，用rnn预估的结果和线上的结果确实比较符合。

效果比百度本身的预估好一倍。

解决刷单：

刷单方案：

1.建一个微信群，然后每个人给钱，寄空包裹，然后提高我的好评

2.把自己的价格压的非常低，使得自己的成交量上去。

导致使得一些不是优质的卖家，占据了优质流量，使得平台的转化量比较低。

淘宝本身的objective比较复杂。

解决方案，实际上是将差的卖家扔到下面去。

本质上是流量的分配。

总结：

。。。好像我们的广告系统的bid和推荐系统是分开的，所以这玩意儿好像我们根本没法用。

不过动态调整参数可以借鉴一下，可以试试greedy的方案。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航