您的位置：首页 > 其它

机器学习之 LDA主题模型

2015-07-06 23:24 260 查看

今天终于开始啃LDA了，同时恶补一下概率分布方面的东西。

先放上来大神学习LDA的五个步骤：

1. 一个函数：gamma函数

2. 四个分布：二项分布、多项分布、beta分布、Dirichlet分布

3. 一个概念和一个理念：共轭先验和贝叶斯框架

4. 两个模型：pLSA、LDA

5. 一个采样：Gibbs采样

LDA（Latent Dirichlet Allocation）

全称是隐含狄利克雷分布

一种主题模型

将文档集中每篇文档的主题以概率的形式给出

可以用于主题聚类或分本分类

一种典型的词袋模型（一个文档有很多词，词是无序的）

一篇文档可以含有很多主题

文档的每个词都由一个主题生成

在LDA中，一篇文档是这样生成的：

四种概率分布

下面就分别介绍一下二项分布、多项式分布、β分布和狄利克雷分布。

二项分布到多项式分布

二项分布是伯努利分布的扩展版本，多项式分布则又是二项分布的扩展版本。伯努利分布是一个离散型的随机分布，做一次实验，实验的结果只有两个，而二项分布则将实验次数扩展到了多个，而多项式分布则将实验的结果也扩展到了多个。

β分布到狄利克雷分布

狄利克雷分布是β分布在高维度上的推广。

共轭先验分布

在贝叶斯概率论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

β分布是二项式分布的共轭先验分布：观测到的数据符合二项分布，参数的先验分布和后验分布属于β分布的情况，就是Beta-Binomial共轭。换言之，Beta分布是二项式分布的共轭先验概率分布。

狄利克雷分布式多项式分布的共轭先验分布：观测到的数据符合多项式分布，参数的先验分布和后验分布属于狄利克雷分布的情况，就是Dirichlet-Multinomial共轭。换言之，狄利克雷分布式多项式分布的共轭先验分布。