您的位置：首页 > 其它

Cluster: EM

2015-10-12 18:57 127 查看

最近项目需要对Cluster进行一个survey，需要利用cluster进行feature selection，觉得EM聚类也算是一个比较经典算法。

1.EM算法

在实际问题我们的模型中需要假设关键的隐变量，这些隐变量对模型的结果起着决定性影响，而我们又无法直接给出这组隐变量，于是可以通过最大似然估计来对这组隐变量进行嗅探（其实就是不断的try-do，不过这个try-do并有理论依据的trend）。

EM其实就是这两个过程：Expectation - Maximization，E阶段完成对参数估计，

M阶段完成最大化似然估计，

停止条件便是最大化似然估计较上次提升不大（小于预先设定阈值）或者达到预定迭代次数，首次隐变量可以通过根据实际情况采取先验办法或者随机取值。

EM看起来比较简单直观，一些领域算法中包含EM，如NLP中HMM的第三个问题（求模型参数），对于一些模型求隐变量是一个很有用的办法，当然写到这里感觉采用随机抽样的办法可不可以做为EM的initial呢？对于EM缺陷几乎是所有ML算法的通病-局部最优。

关于EM的理论证明基础便是凸凹基集（Jensen不等式，高数）+证明收敛，具体可以看看

http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

http://blog.csdn.net/abcjennifer/article/details/8170378。

2.EM聚类

上面公式中p是指概率，z表示隐变量，x表示数据点，同k-means一样每个数据点隶属不同的cluster，不过这里采用soft即每个数据点依照不同分布概率隶属于不同的cluster，weka里面采用常见的高斯混合，假设了数据的每个属性之间独立，离散属性和连续属性不同的概率计算方式。

weka中-M参数设置-1时候可以通过交叉验证方式获取最好的聚类个数，划分方法是k-means，主要是分10-fold，每一个fold计算loglikelihood最后求average，当然这里可以通过对k进行EM，等于使用了两层的EM。

weka里面有经典的EM聚类算法实现，具体代码讲解请看：

http://www.360doc.com/content/13/0722/21/13256259_301813491.shtml

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航