lda的变分推理
2016-01-29 15:35
218 查看
上文, lda 原理及变形 ,我们提到 e-step 我们要用变分推理的方法求解如下的优化问题:
所以,这里用了其他的方法来求解。
我们提到的函数可以转化为log似然函数。根据逻辑似然函数的jesen 不等式性质,我们可以找到 log似然函数的下界。
(1)
Jensen不等式是指,积分的凸函数值大于等于凸函数的积分值:
ϕ(E(X))≤E(ϕ(X))
将 (1) 式中的第四行标记为
,这个就是log似然函数的 下边界,我们计算
二者的差发现刚好是 这两个的分布的kl距离。
所以 原来的kl最小转化成了
最大化,下面是用拉格朗日乘数法求取L最大值问题。
根据 狄利克雷分布的一个性质 :
可以计算以上的五个期望:
我们对(2)式中的L做简化,只留下与ϕ 有关的项
:
求偏导:
解得:
对于
gamma
,同样的步骤:
也就是 让 括号中的
为 0.
M-step :
首先把L(γ,ϕ;α,β)简化,只保留与β有关的部分。因为β是每一行存一个主题的词分布,所以每一行的和是1,存在等式约束∑Vj=1βij=1,所以是带等式约束的最大化问题,使用拉格朗日乘数法,可得到拉格朗日函数如下:
牛顿法求解 alpha
参考 :
《Latent Dirichlet Allocation》
http://blog.csdn.net/happyer88/article/details/46473497
的差发现刚好
所以,这里用了其他的方法来求解。
我们提到的函数可以转化为log似然函数。根据逻辑似然函数的jesen 不等式性质,我们可以找到 log似然函数的下界。
(1)
Jensen不等式是指,积分的凸函数值大于等于凸函数的积分值:
ϕ(E(X))≤E(ϕ(X))
将 (1) 式中的第四行标记为
,这个就是log似然函数的 下边界,我们计算
二者的差发现刚好是 这两个的分布的kl距离。
所以 原来的kl最小转化成了
最大化,下面是用拉格朗日乘数法求取L最大值问题。
根据 狄利克雷分布的一个性质 :
可以计算以上的五个期望:
我们对(2)式中的L做简化,只留下与ϕ 有关的项
:
求偏导:
解得:
对于
gamma
,同样的步骤:
也就是 让 括号中的
为 0.
M-step :
拉格朗日乘数法求解β
首先把L(γ,ϕ;α,β)简化,只保留与β有关的部分。因为β是每一行存一个主题的词分布,所以每一行的和是1,存在等式约束∑Vj=1βij=1,所以是带等式约束的最大化问题,使用拉格朗日乘数法,可得到拉格朗日函数如下:牛顿法求解 alpha
参考 :
《Latent Dirichlet Allocation》
http://blog.csdn.net/happyer88/article/details/46473497
的差发现刚好
相关文章推荐
- 如何设置Apache中的最大连接数
- 就算选错,人生也不会毁了(一篇轰动台湾的文章)
- HTTP 缓存策略
- 选夫婿2
- LINUX0.11内核阅读笔记
- html/css基础篇——GET和POST的区别
- 源码推荐(01.29B):当下最流行的NavigationBar切换效果,仿开眼app
- GitHub——使用GitHub
- MySQL常用命令(备查)
- MySQL触发器的作用
- 【选择图片Jar】拨云见日-GalleryAdapter完整代码(四)
- 致2015最后2个月ios开发
- .net AES加密解密
- ECMAScript数据类型
- html/css基础篇——GET和POST的区别
- win7系统右键菜单没有小工具选项的解决方法
- javascript深入理解js闭包
- Java四种线程池的使用
- Java实现把测试结果写入Excel表中
- Java实现cRUL