主题模型LDA
2017-08-31 09:59
351 查看
多项分布和狄利克雷分布
多项分布
某随机实验如果有k个可能结局A1、A2、…、Ak,分别将他们的出现次数记为随机变量X1、X2、…、Xk,它们的概率分布分别是p1,p2,…,pk,那么在n次采样的总结果中,A1出现n1次、A2出现n2次、…、Ak出现nk次的这种事件的出现概率P有下面公式:P(X1=n1,...,Xk=nk)={n!n1!...nk!pn11...pnkk0,∑ki=1ni=n;,otherwise
另一种形式写为:
P(X1=n1,...,Xk=nk)=⎧⎩⎨⎪⎪n!∏i=1kpniini!0,∑ki=1ni=n;,otherwise
多项分布可以看作时候二项分布推广到多维的形式
狄利克雷分布
dirichlet distribution就是由2种结果bernoulli trial导出的beta distribution外推到k种的generalizationK阶段狄利克雷分布的概率密度函数如下:
f(x1,...,xK;a1,...,aK)=1B(a→)∏Kk=1pak−1k,pk∈[0,1]
简记为
Dir(p→|a→)=1B(a→)∏Kk=1pak−1k,其中
B(a→)=∏k=1KΓ(ak)Γ(∑k=1Kak)
期望
E(pi)=ai∑k=1Kak
协方差
Cov(pi,pj)=aia0[i=j]−aiaja20(a0+1)
a0=∑Kk=1ak
对称狄利克雷分布
在对称狄利克雷分布中所有ai的取值相同,所以分布可以由唯一的ak和阶数K确定。Dir(p→|a,K)=1BK(a)∏k=1Kpa−1k
其中
Bk(a)=ΓK(ak)Γ(K⋅a)
对称狄利克雷分布性质
当a=1,退化为均匀分布(类比Beta(1,1))
当a>1时,p1=p2=...=pk的概率增加(更偏向于各分量取值相同)
当a<1时,pi=1,p−i=0的概率增大,(偏向于某分量取值更大)
共轭性质
类比于二项分布的共轭先验是Beta分布,多项分布的共轭先验是狄利克雷分布。假设参数x=(x1,x2,...,xk)有先验分布Dir(K,a1,...,ak),即
p(x;a1,...,ak)=1B(a)∏i=1kxai−1i
另有似然函数
p(y|x)∼Multi(x)
则后验概率
p(x|y)∼1Z∏i=1kxai+ni−1i
与Dirichlet分布形式一致。
主题模型
主题模型是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合)。LDA是主题模型的典型代表。基本概念
词word是待处理数据的基本离散单元。文档document是待处理的数据对象,由一组词组成,这些词在文档是不计顺序的。
话题topic表示一个概念,表示为一系列相关的词,以及它们在该概念下出现的概率。
LDA中的两个关键要素
一系列关于词语的分布(topics)每个文档有一个话题的分布
LDA生成过程
生成每个话题,就是一个词语的分布βk∼Dirichlet(γ),k=1,...,K
对于每一个文档,生成一个关于话题的分布
θd∼Dirichelet(a),d=1,...,D
对于第d篇文档中的第n各词语xdn
将其分配给一个主题
cdn∼Discrete(θd)
从选择的话题中生成词语
xdn∼Disccrete(βcdn)
LDA和矩阵分解
对于一篇特定的文档d,如何计算P(xdn=i|β,θd)?通过将话题的簇分配积分得到。
P(xdn=i|β,θ)=∑k=1KP(xdn=i,cdn=k|β,θd)=∑k=1KP(xdn=i|β,cdn=k)P(cdn=k|θd)=∑k=1Kβki⋅θdk
现在令B=[β1,...,βK],Θ=[θ1,...,θD],则P(xdn=i|β,θ)=(BΘ)id
换句话说,我们可以通过一个由两个含有非负项的矩阵相乘得到的矩阵得到。
相关文章推荐
- LDA主题模型(理解篇)
- LDA主题模型简介
- LDA主题模型相关阅读资料
- 主题模型LDA-ML之七
- 置顶] 主题模型-LDA浅析
- 王小草【机器学习】笔记--主题模型LDA实践与应用
- 主题模型TopicModel:LDA编程实现
- 初试主题模型LDA-基于python的gensim包
- LDA主题模型小结
- Latent Dirichlet Allocation(LDA)主题模型算法实现及源码解析
- TopicModel主题模型 - LDA的缺陷和改进
- LDA主题模型学习笔记3.5:变分參数推导
- 用 LDA 做主题模型:当 MLlib 邂逅 GraphX
- 概率主题模型与LDA模型公式推导(1)
- LDA主题模型学习笔记
- LDA主题模型
- LDA主题模型和Gibbs Sampling 学习整理
- LDA主题模型评估方法--Perplexity
- lda 主题模型--TOPIC MODEL--Gibbslda++结果分析
- LDA主题模型(算法详解)