您的位置:首页 > 编程语言 > Go语言

核密度估计、混合模型,潜变量和EM算法(mixture model,latent variable and EM algorithm)

2015-03-02 15:57 375 查看
转载至http://site.douban.com/182577/widget/notes/10567212/note/268993165/

关于核密度估计参考http://blog.csdn.net/yujunbeta/article/details/8711737

1.从核密度估计到混合模型

从一个例子开始。

间歇泉”老忠实”(http://en.wikipedia.org/wiki/Old_Faithful)
是美国黄石公园里著名景点。

数据集geyser (package MASS)记录了它在1985年8月1日到8月15日300次喷发的299个间隔时间。对这个间隔时间数据做密度估计。

绘制直方图和核密度估计曲线(取高斯核)



从这个密度估计看出,数据集表现出一个双峰的分布形态,可以用非参数的核密度方法来得到这个形态对应的密度函数。核密度函数是在每个观测点采用一个核概率密度然后进行累加,如果数据足够多,就可以足够接近其可能的概率密度。这种方法的缺点是,当点过多的时候,会引发大量的计算。

对这个数据集的密度估计的处理也可以换一种思路,既然存在两个各自对称的成分,那么从参数化的观点,这个数据集也可以看作由两个不同参数的正态总体混合生成的。

由此引入高斯混合模型:



2.混合模型和潜变量

#模型角度引入混合模型

(1)潜变量和潜变量模型

所谓潜变量,是指不能直接观测,而需要(通过数学模型)由可以直接观测的变量(即显变量,manifest variables)进行推断的变量。潜变量模型(LVM)就是将显变量和潜变量联系起来的模型。因子分析(factor analysis)就是一个典型的潜变量模型(因子即为潜变量)。

在统计/机器学习领域中,大量方法与潜变量有关,如因子分析,隐马过程,潜语义分析(Latent semantic analysis),Latent Dirichlet allocation等,EM算法常用于对潜变量模型进行参数估计。

(2)从潜变量到混合模型

最简单的潜变量模型是表示离散的潜状态,z[i]∈{1,2,…,K}。每个潜状态对应一个基础分布,则整体的模型就是混合模型:



是状态为k时的概率分布。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: