您的位置:首页 > 其它

数学之路(3)-机器学习(3)-机器学习算法-LDA(Latent Dirichlet Allocation)主题模型算法

2013-10-11 16:03 671 查看


主题模型算法的计算公式基于条件概率:

p(w|d) = p(w|t)*p(t|d)

对每个D中的文档d,对应到不同topic的概率θd <
pt1,..., ptk >,其中,pti表示d对应T中第i个topic的概率。计算方法是直观的,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。
对每个T中的topic t,生成不同单词的概率φt <
pw1,..., pwm >,其中,pwi表示t生成VOC中第i个单词的概率。计算方法同样很直观,pwi=Nwi/N,其中Nwi表示对应到topic
t的VOC中第i个单词的数目,N表示所有对应到topic t的单词总数。

从算法上看主题模型算法没有涉及到主题词库如何生成。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: