您的位置：首页 > 其它

机器学习实战精读--------K-均值聚类算法

2017-09-05 15:03 495 查看

一个聚类算法只需要知道如何计算相似度就可以了K-均值（k-means）聚类算法：该算法可以发现K个不同的簇，每个簇的中心采用簇中所安置的均值计算而成。
分层聚类算法
① BIRCH算法：结合了层次聚类算法和迭代的重定位方法，首先用自底向上的层次算法，然后用迭代的重定位来改进效果。

② DBSCAN算法：具有噪声的基于密度的聚类方法
③ CURE算法：选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或对象来代表一个簇，而是选择数据空间中固定数目的具有代表性的点。每一个簇有多于一个的代表点使得 CURE 可以适应非球形的几何形状。簇的收缩或凝聚可以有助于控制孤立点的影响。因此，CURE 对于孤立点的处理更加好，而且能够识别非球形和大小变化较大的簇。
K-均值聚类算法缺点：最终得到的不是全局最优，大规模数据收敛速度较慢。

K-均值算法的工作流程：一堆数据，选择k个初始点作为质心，为数据集中的每个点找距离它最近的质心，把它分配的该质心所属的簇。最后把每个簇的质心更新为该簇所有点的平均值。（该过程不断迭代）终止条件：数据点的簇分配结果不再改变。
聚类的目标：保持簇数量不变的情况下提高簇的质量。
SSE（误差平方和）：用来度量聚类效果，SSE值越小表示数据点越接近它们的质心，聚类效果也越好

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 聚类算法 means

相关文章推荐

新的分享

章节导航