您的位置：首页 > 其它

PLSA主题模型的EM算法推导

2017-07-17 22:15 239 查看

看论文顺便粗略学习了EM算法和PLSA主题模型，鉴于刚入门，本文不对其原理进行深入探讨，主要针对其中的公式推导详细说明一下。

PLSA主题模型：

Probabilitic Latent Sematic Analysic（PLSA）主题模型是一种自然语言处理相关问题中非常经典的统计模型。相较于LSA模型，PLSA是一种基于概率统计的模型，可以用来判断文本中隐藏主题。

PLSA原理图如下：

其中，d代表文档，一共N篇，z代表主题，一共K种，w代表单词，一共M个，p(z|d)表示主题z出现在文档d下的条件概率，p(w|z)表示的是单词w出现在主题z下的条件概率。主题在单词上服从多项分布，文档在主题上服从多项分布。整篇文档的生成过程如下：

以p(d)的概率选中一篇文档d

在文档d选中的条件下，以p(z|d)的概率选中一个主题z

在文档d和主题z都选中的条件下，以p(w|z)的概率选中一个单词w生成。

其中文章d和单词w是我们可以观察到的数据，而主题z是隐含变量。

根据定义，由全概率公式很容易得到二元组(d,w)的联合概率分布：

其中，

与

都是未确定参数的多项分布，我们的目的就是估计这两组参数。

首先不妨利用极大似然估计（MLE），似然函数表示在当前参数条件下，观测出数据的联合概率，针对PLSA模型即为（假设数据之间相互独立）：

其中，

为单词wj出现在文档di中的次数。为了便于计算求导，取对数似然函数，并将前面几个公式代入，可以得到：

式中，

可以视为一个常数，我们需要极大化似然函数，求解

和

很显然，对这样含有对数和的函数求偏导非常困难，因此，需要利用EM算法迭代求解。

EM算法：

Expectation Maximization（EM）算法，顾名思义，分为两个步骤：1)求期望，2)最大化。

算法具体描述如下：

一般用Y表示观测随机变量的数据，用Z表示隐随机变量的数据。Y和Z一起成为完全数据（complete-data），Y单独称为不完全数据（incomplete-data）。

算法需要注意的几点如下：

利用EM算法求解PLSA：

按照EM算法的思路，首先要求出Q函数，也就是完全数据的对数似然函数

关于给定数据

和当前参数

下，对未观测数据

的条件概率分布

的期望。

对于完全数据的对数似然函数，与MLE时类似可以得到：

要注意的是，这里

已经和MLE时不同，为：

为什么这里不是zk的求和呢？因为此时我们针对的是完全数据，认为隐藏变量也已知，简言之就是我们已经观察到了每个单词w背后的主题z，这样计算概率的时候zk是确定的。

完全数据的似然函数求出来了，下面需要求这个似然函数针对隐藏变量Z在观测数据和当前参数条件下的期望。因此要先求出Z的后验概率

，这里根据全概率公式与以上的推导可以得到：

这样，可以得到在PLSA主题模型下的Q函数表达式：

剩下的就是要对Q函数求极大化，需要用到拉格朗日乘子法，在后续文章中会介绍。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 自然语言处理 PLSA em算法

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部