LDA论文学习笔记
2016-02-04 11:18
435 查看
以下内容节选自David M. Blei的论文《Latent Dirichlet Allocation》主要是选自LDA的处理流程部分,可能理解上有很大的偏差,或者表达上有问题,如有误导还想大家多多指教。
LDA原始论文链接为:http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
LDA中关于词,文档,语料的定义:
1. 词(word)是基本的离散数据单元,对词的展示是使用向量,如果词典里面有对应的某个词,则为1,否则为0。
2. 文档是N个词的序列,和上面的词有直接的关系,用w表示。
3. 语料是M个文档的集合,用D表示。
LDA的目标是找一个概率模型的语料集合,不仅将高概率的词分配给语料的成员,还将高概率的词分配给相似的文档。LDA是语料的生成概率模型,他的基本思想是文档是一些潜在的主题的随机组合,并且主题在词上也满足一定的分布。
对于语料D中的每一个文档w,LDA按如下的处理流程:
1.根据Poisson分布选择词N
2.根据Dirichlet分布选择主题cita
3.对每个文档w(下标n)中的词
(a) 从满足多项式分页的cita中选择一个主题Z 。
(b) 在多项式的条件概率分布和主题的情况下选择文档w(下标n)的词。
以上的基本模型有以下的假设:
1. Dirichlet分布的维度k是可知并且不变的
2. 词的概率是一个固定的数值,并且是一个满足(k,V)的概率矩阵。
3. Poisson分布是一个假设分布,可以根据文档长度的的实际分布做调整。
4. 每个文档是相互独立于其它的数据生成变量cita和Z。
以下是对论文公式的注释
LDA原始论文链接为:http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
LDA中关于词,文档,语料的定义:
1. 词(word)是基本的离散数据单元,对词的展示是使用向量,如果词典里面有对应的某个词,则为1,否则为0。
2. 文档是N个词的序列,和上面的词有直接的关系,用w表示。
3. 语料是M个文档的集合,用D表示。
LDA的目标是找一个概率模型的语料集合,不仅将高概率的词分配给语料的成员,还将高概率的词分配给相似的文档。LDA是语料的生成概率模型,他的基本思想是文档是一些潜在的主题的随机组合,并且主题在词上也满足一定的分布。
对于语料D中的每一个文档w,LDA按如下的处理流程:
1.根据Poisson分布选择词N
2.根据Dirichlet分布选择主题cita
3.对每个文档w(下标n)中的词
(a) 从满足多项式分页的cita中选择一个主题Z 。
(b) 在多项式的条件概率分布和主题的情况下选择文档w(下标n)的词。
以上的基本模型有以下的假设:
1. Dirichlet分布的维度k是可知并且不变的
2. 词的概率是一个固定的数值,并且是一个满足(k,V)的概率矩阵。
3. Poisson分布是一个假设分布,可以根据文档长度的的实际分布做调整。
4. 每个文档是相互独立于其它的数据生成变量cita和Z。
以下是对论文公式的注释
相关文章推荐
- error C2660: “Gdiplus::GdiplusBase::operator new”: 函数不接受 3 个参数
- Eclipse调试Android工具-adb命令大全(一)
- 2016年春找软硬件合伙人共创机器人大业,不差钱只差人,请有意向者联系我!
- POJ 1083:Moving Tables
- Symfony2在Nginx下的配置方法图文教程
- ASP.Net MVC开发基础学习笔记(1):走向MVC模式
- ViewPager 删除一项后有残余,这样可以解决
- 一个简单网络爬虫示例
- Android Studio之AndroidManifest.xml(笔记)
- 深入理解 Session 与 Cookie
- Android客户端与服务端交互
- lua 类继承和实现
- c#中单元测试
- ZOJ 2397:Tian Ji -- The Horse Racing
- 素数(质数) 2
- linux-tomcat-session共享-redis集群
- 欢迎使用CSDN-markdown编辑器
- ILECY的福利 【精华】
- 整个web开发流程及需要的人员
- ZwCreateFile