机器学习实战精读--------K-均值聚类算法
2017-09-05 15:03
495 查看
一个聚类算法只需要知道如何计算相似度就可以了K-均值(k-means)聚类算法:该算法可以发现K个不同的簇,每个簇的中心采用簇中所安置的均值计算而成。
分层聚类算法
① BIRCH算法:结合了层次聚类算法和迭代的重定位方法,首先用自底向上的层次算法,然后用迭代的重定位来改进效果。
② DBSCAN算法:具有噪声的基于密度的聚类方法
③ CURE算法:选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或对象来代表一个簇,而是选择数据空间中固定数目的具有代表性的点。每一个簇有多于一个的代表点使得 CURE 可以适应非球形的几何形状。簇的收缩或凝聚可以有助于控制孤立点的影响。因此,CURE 对于孤立点的处理更加好,而且能够识别非球形和大小变化较大的簇。
K-均值聚类算法缺点:最终得到的不是全局最优,大规模数据收敛速度较慢。
K-均值算法的工作流程:一堆数据,选择k个初始点作为质心,为数据集中的每个点找距离它最近的质心,把它分配的该质心所属的簇。最后把每个簇的质心更新为该簇所有点的平均值。(该过程不断迭代)终止条件:数据点的簇分配结果不再改变。
聚类的目标:保持簇数量不变的情况下提高簇的质量。
SSE(误差平方和):用来度量聚类效果,SSE值越小表示数据点越接近它们的质心,聚类效果也越好
分层聚类算法
① BIRCH算法:结合了层次聚类算法和迭代的重定位方法,首先用自底向上的层次算法,然后用迭代的重定位来改进效果。
② DBSCAN算法:具有噪声的基于密度的聚类方法
③ CURE算法:选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或对象来代表一个簇,而是选择数据空间中固定数目的具有代表性的点。每一个簇有多于一个的代表点使得 CURE 可以适应非球形的几何形状。簇的收缩或凝聚可以有助于控制孤立点的影响。因此,CURE 对于孤立点的处理更加好,而且能够识别非球形和大小变化较大的簇。
K-均值聚类算法缺点:最终得到的不是全局最优,大规模数据收敛速度较慢。
K-均值算法的工作流程:一堆数据,选择k个初始点作为质心,为数据集中的每个点找距离它最近的质心,把它分配的该质心所属的簇。最后把每个簇的质心更新为该簇所有点的平均值。(该过程不断迭代)终止条件:数据点的簇分配结果不再改变。
聚类的目标:保持簇数量不变的情况下提高簇的质量。
SSE(误差平方和):用来度量聚类效果,SSE值越小表示数据点越接近它们的质心,聚类效果也越好
相关文章推荐
- 【机器学习实战之三】:C++实现K-均值(K-Means)聚类算法
- 【机器学习实战】 利用K-均值聚类算法对未标注数据分组
- 【机器学习实战-python3】K-均值聚类算法
- 机器学习实战精读--------决策树 推荐
- 机器学习实战精读--------FP-growth算法
- 机器学习笔记(七)聚类算法(k均值,降维)
- 代码注释:机器学习实战第10章 利用K-均值聚类算法对未标注数据分组
- 机器学习经典算法详解及Python实现--聚类及K均值、二分K-均值聚类算法
- 机器学习实战 - 读书笔记(10) - 利用K-均值聚类算法对未标注数据分组
- 机器学习 聚类(Clustering)____K-均值聚类算法(K-means Clustering) 层次聚类(Hierarchical Clustering)
- 机器学习之利用K b24b -均值聚类算法对未标注数据分组
- 机器学习理论与实战(十)K均值聚类和二分K均值聚类
- 机器学习之-用k-均值聚类算法对未标注数据分组-具体怎么实现及应用
- 机器学习实战:K-均值及二分K-均值聚类算法
- 机器学习——利用K-均值聚类算法对未标注数据分组
- 机器学习(九):K-均值聚类算法
- 斯坦福大学机器学习笔记——聚类(k-均值聚类算法、损失函数、初始化、聚类数目的选择)
- 机器学习实战精读--------logistic回归
- 机器学习理论与实战(十)K均值聚类和二分K均值聚类 .
- 机器学习之-用k-均值聚类算法对未标注数据分组-具体怎么实现及应用