您的位置：首页 > 其它

LDA论文学习笔记

2016-02-04 11:18 435 查看

以下内容节选自David M. Blei的论文《Latent Dirichlet Allocation》主要是选自LDA的处理流程部分，可能理解上有很大的偏差，或者表达上有问题，如有误导还想大家多多指教。

LDA原始论文链接为：http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

LDA中关于词，文档，语料的定义：

1．词（word）是基本的离散数据单元，对词的展示是使用向量，如果词典里面有对应的某个词，则为1，否则为0。

2．文档是N个词的序列，和上面的词有直接的关系，用w表示。

3．语料是M个文档的集合，用D表示。

LDA的目标是找一个概率模型的语料集合，不仅将高概率的词分配给语料的成员，还将高概率的词分配给相似的文档。LDA是语料的生成概率模型，他的基本思想是文档是一些潜在的主题的随机组合，并且主题在词上也满足一定的分布。

对于语料D中的每一个文档w，LDA按如下的处理流程：

1．根据Poisson分布选择词N

2．根据Dirichlet分布选择主题cita

3．对每个文档w(下标n)中的词

(a) 从满足多项式分页的cita中选择一个主题Z 。

(b) 在多项式的条件概率分布和主题的情况下选择文档w(下标n)的词。

以上的基本模型有以下的假设：

1. Dirichlet分布的维度k是可知并且不变的

2. 词的概率是一个固定的数值，并且是一个满足(k，V)的概率矩阵。

3. Poisson分布是一个假设分布，可以根据文档长度的的实际分布做调整。

4. 每个文档是相互独立于其它的数据生成变量cita和Z。

以下是对论文公式的注释

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航