您的位置：首页 > 其它

gmm(Gaussian Mixture Mode)的理解

2014-05-11 11:27 155 查看

GMM 英文全称：Gaussian Mixture Model 中文:高斯混合模型。既然叫高斯混合模型，自然是由高斯模型混合而来。高斯模型，就是我们平时的正态分布，又名高斯分布。友情提醒：要学习理解高斯混合模型，需要中心极限定理和极大似然估计这两个概率论背景知识。高斯混合模型，也主要是用于聚类。举这样一个例子：假设现在有两个不同的高斯分布，我们用这样的两个分布随机的生成任意多个点，那么如何将某个点判定为属于哪一个分布?这就相当于一个聚类问题，如何将一个点分配到他应该属于的那个类中。

我们知道kmeans也可以用于聚类，那么GMM和kmeans的区别在哪里呢？在kmeans中，我们直接就得到了一个数据点，应该属于哪一个类。而在GMM中，我们得到的结果只是某个点属于某个类的可能性大小。举个例子，比如存在这样一种情况：两个高斯分布图像存在重叠的部分，那么处于交叉部分的数据点A，就只能是有一个属于某一个高斯分布的概率。如何决定A是属于哪一个高斯分布，将有你来作决定，而不是由机器决定。假如有这样一个根据症状测试病人患什么病的机器，如果机器测出来患A病的可能性是0.55,患B病的可能性是0.45.这两个概率就很接近，这时候不能草率的说病人就是患A病，必须由医生再次诊断。

GMM的学习结果：就是某个数据点属于某个类的概率。

每个GMM看作有K个高斯分布组成，那么这些高斯分布的线性组合就是GMM的概率密度函数：

其中 πk表示第k个高斯分布被选中的概率。显然我们要作的就是确定 pi(k),mu(k),sigma(k) (ps:主机本身没有Latex功能，所以就无法直接打希腊字母，郁闷的很，将就着看吧)这些参数的值.显然利用概率论中的极大似然估计来对参数进行估计。极大似然估计的条件就是在分布函数已知的情况下，借助总体的一个样本对参数进行估计。我们这里已知概率密度函数了，利用一组样本值，X=(x1,x2,...xn)，得到事件X发生的概率为：

取对数后可得

接下来我们只要将这个函数最大化（通常的做法是求导并令导数等于零，然后解方程），亦即找到这样一组参数值，它让似然函数取得最大值，我们就认为这是最合适的参数，这样就完成了参数估计的过程。由于这里对数里面又有累加的过程，我们无法直接用求导的方式求得pi(k),mu(k),sigma(k)。我们采取迭代的方式，首先假设pi(k),mu(k),sigma(k)已知,计算数据点i由第k个高斯分布生成的概率gamma(i,k),然后在利用算出来gamma(i,k), 计算pi(k),mu(k),sigma(k)。循环上述步骤，直至GMM的似然函数的值收敛。

上面部分写的混乱了点，还是上公式吧。上述过程总体而言分成3步：

第一步：估计每个数据点属于每个类k的概率，假设mu,pi,sigma这些都是已知的：

第二步：对于每一个聚类k,我们已知它的分布函数，就利用r(i,k)来计算对应的mu(k),pi(k),sigma(k):

第三步：重复迭代上面两步，将上面计算出的pi,mu,sigma带入GMM的极大似然函数中，当似然函数的两次结果小于起初设定的阈值，即似然函数收敛后，运算结束。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习 GMM 聚类

相关文章推荐

新的分享

章节导航