您的位置:首页 > 其它

计算广告学习笔记3.4 受众定向-主题模型

2013-01-06 11:39 274 查看
来自于师徒网 刘鹏的讲课,确实不错,笔记记录一下



词包模型

概率图模型的一些说明:

实心点:观察到的 空心点:变量

有向直线:概率依存关系 间隔的节点条件独立

框框:框内重复的次数

PI:主题先验的分布 z:用于描述文档的隐含的主题,sitak:K个主题里面词的分布

PLSI和LDA的区别,LDA在先验分布前又添加了先验分布,很自然的,因为w,z是multinomial分布的,pi和sita自然就是Dirichlet分布的了。

Gap来自于03年的sigir,z是多维Gamma分布(norm后变为Dirichlet分布),不要求topic和为1(若干的topic上都有意义),缺点EM过程是近似的



LDA的解法是经验贝叶斯的一个特例,从LSI到LDA属于经验贝叶斯的过程(呵呵,该补补概率统计了)。



不能用EM的方法的可以采用Deterministic inference(确定性方法,不保证解,修改代码快)或者Probabilistic inference(采样方法,保证解,慢)来做

Deterministic inference 因为在工程上从EM代码修改为VBEM,非常容易,所以虽然性能一般,但是还是有用的。

前两页的小结:PLSI按照贝叶斯的想法,为了平滑其参数加上两个超参数,超参数alpha beta生成参数的方式,采用共轭先验,multinomial的共轭先验自然是Dirichlet分布,再使用经验贝叶斯的方法论求alpha 和beta,该方法论原始模型PLSI不是指数模型,是混合分布,em解决不了,所以采用以上的两种方法。



在实际的情况下,主要还是采用监督的LDA,因为主题要能让广告主懂。

广告的主题一般为层次的,所以可以用层次的LDA指导学习。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: