您的位置：首页 > 编程语言 > Go语言

核密度估计、混合模型，潜变量和EM算法（mixture model,latent variable and EM algorithm）

2015-03-02 15:57 375 查看

转载至http://site.douban.com/182577/widget/notes/10567212/note/268993165/

关于核密度估计参考http://blog.csdn.net/yujunbeta/article/details/8711737

1.从核密度估计到混合模型

从一个例子开始。

间歇泉”老忠实”(http://en.wikipedia.org/wiki/Old_Faithful)
是美国黄石公园里著名景点。

数据集geyser (package MASS)记录了它在1985年8月1日到8月15日300次喷发的299个间隔时间。对这个间隔时间数据做密度估计。

绘制直方图和核密度估计曲线（取高斯核）

从这个密度估计看出，数据集表现出一个双峰的分布形态，可以用非参数的核密度方法来得到这个形态对应的密度函数。核密度函数是在每个观测点采用一个核概率密度然后进行累加，如果数据足够多，就可以足够接近其可能的概率密度。这种方法的缺点是，当点过多的时候，会引发大量的计算。

对这个数据集的密度估计的处理也可以换一种思路，既然存在两个各自对称的成分，那么从参数化的观点，这个数据集也可以看作由两个不同参数的正态总体混合生成的。

由此引入高斯混合模型：

2.混合模型和潜变量

#模型角度引入混合模型

（1）潜变量和潜变量模型

所谓潜变量，是指不能直接观测，而需要（通过数学模型）由可以直接观测的变量（即显变量，manifest variables）进行推断的变量。潜变量模型（LVM）就是将显变量和潜变量联系起来的模型。因子分析（factor analysis）就是一个典型的潜变量模型(因子即为潜变量)。

在统计/机器学习领域中，大量方法与潜变量有关，如因子分析，隐马过程，潜语义分析（Latent semantic analysis），Latent Dirichlet allocation等，EM算法常用于对潜变量模型进行参数估计。

（2）从潜变量到混合模型

最简单的潜变量模型是表示离散的潜状态，z[i]∈{1，2，…，K}。每个潜状态对应一个基础分布，则整体的模型就是混合模型：

是状态为k时的概率分布。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航