主题模型LDA-ML之七
2017-10-26 19:38
274 查看
LDA 主题模型
LDA的应用方向
信息提取和搜索文档分类/聚类、文章摘要、社区挖掘
基于内容的图像聚类、目标识别
生物信息数据的应用
基础函数
LDA基本函数
LDA涉及的问题
共轭先验分布Dirichlet分布
LDA模型:Gibbs采样算法学习参数
共轭先验分布
在贝叶斯概率理论中,如果后验概率p(θ|x)和后验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时先验分布叫做似然函数的共轭先验分布。LDA的解释
共有m篇文章,一共涉及了K个主题;每篇文章(长度为Nm)都有各自的主题分布,主题分布式多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为α;
每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为β;
对于某篇文章的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程,直到m篇文章全部完成上述过程。
LDA总结
由于在词和文档之间加入的主题的概念,可以较好的解决一词多义和多词一义的问题;在实践中发现,LDA用于短文本往往效果不明显–这是可以解释的,因为一个词被分配给某个主题的次数和一个主题包括的词的数目尚未收敛,往往需要其他方案连接成长文档;
LDA可以和其他算法相结合,首先使用LDA将长度为Ni的文档降维到K维,同时给出每个主题的概率,从而可以使用IF-IDF继续分析或者直接作为文档的特征进入聚类或者标签传递算法-用于社区发现等问题。
相关文章推荐
- 浅析LDA-主题模型
- LDA 主题模型
- mahout 中LDA主题模型算法流程
- LDA主题模型简介
- 学习Topic Model(主题模型)--Latent Dirichlet Allocation(LDA) 的一些摘要
- 通俗理解LDA主题模型
- 主题模型TopicModel:LDA主题模型的评估
- LDA主题模型相关阅读资料
- 主题模型lda源码阅读
- LDA主题模型、Word2Vec
- 文本主题模型之LDA(一) LDA基础
- LDA主题模型(算法详解)
- LDA主题模型简介
- LDA主题模型简介
- 通俗理解LDA主题模型
- LDA 隐含主题模型学习
- 文本主题模型之LDA(二) LDA求解之Gibbs采样算法
- LDA主题模型三连击-入门/理论/代码
- 主题模型LDA
- 通俗理解LDA主题模型