您的位置：首页 > 其它

【机器学习】K-means聚类

2015-04-27 21:49 218 查看

转自：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html

K-means聚类：这篇博客讲的很好，从聚类算法过程，到原理都讲的很清晰。

再增加一些自己的总结：

1、由于k-means是无监督聚类，也就是不知道样本的类别信息，那么如何确定当前分的K类是最优的？

确切的来说，没有特定的方法来确定K的最优值。那么如何让K趋近最优呢，一种方法是靠先验来估计，比如一堆数据，你可以事先估计大概分为几类，可以通过画图来看样本的大概分散程度和类别数目，或者根据样本特点来估计类别数目。然后可以在此类别附近进行K-means聚类，看哪个效果更好。

那么如何确定哪个效果更好的，也就是第二种方法，一个好的聚类就是类内间距最小，类间间距最大，所以说，可以依靠方差或者均值来判断聚类效果的好坏，类内方差越小，类间距离越大，说明类内样本越聚合，则分类效果越好。

2、如何判断K-means是收敛的？

在博客中也提到说当质心的值变化不大的时候，认为它就是收敛的。

还有一种方法是当类内的样本变化不大时，认为他是收敛的；个人觉得就聚类来讲，第二种方法更好一点，因为我们的目的是把样本归类，第一种方法只关心质心而忽略了样本的分布，而第二种方法却考虑了样本同时也就考虑了质心。

当然如果无论怎样迭代都达不到收敛的阈值，那么可以设定迭代次数来保证迭代不会无休止的进行下去。

或者像刚才1中提到的根据方差来判断，方差逐渐减小，当小到一定程度，即可认为已经收敛。

3、k-means初始质心的选择？

由于K-means是对初始质心敏感的，那么初始值得不同对结果影响很大，如何进行初始值的选择呢？

多进行几次K-means，选择其中效果最好的。

去除一些游离在样本边缘的数据。

4、k-means的距离有哪些？

最常用距离有欧式距离：

曼哈顿距离：

闵可夫斯基距离：

5、k-means中异常值造成的质心偏移问题

在k-means中质心一般为此类中维度的均值，如果在此类中某个点与大多数的质心距离较远，就会造成质心远离大多数点，在进行聚类中就会融入很多不属于此类的数据。比如聚类后有如下几点属于一类：（2，1）（1，1）（2，2）（1，2）（5，5）其中（5，5）为噪声点，此时求的的质心为（2.2，2.2），这个质心值远离大部分点，造成了质心的偏移，为了解决问题，可以选择类中的点作为质心点，比如（1，2）作为质心点，这样质心不会偏离大部分数据，可以使类别更紧凑。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： k-means 聚类

相关文章推荐

新的分享

章节导航