您的位置:首页 > 其它

周志华 《机器学习》之 第九章(聚类)概念总结

2016-08-26 10:20 253 查看
记得在读研期间,去选修数据挖掘与数据仓库这门课,当时老师讲的很多的一个知识点,那就是聚类分析,然后老师讲了很多什么关联分析等等,很多都忘记了,当时也是听得云里雾里的。看完周老师在机器学习这本书中提到的聚类,大概理解了聚类能做什么,能解决什么样的问题。周老师在数据介绍了多种聚类算法。聚类可以说是一种无监督的学习,也就是说在训练样本中对应的标记信息是没有的,目标是通过对无标记训练样本的学习来揭示数据内在性质和规律,为进一步的数据分析提供基础。周老师分如下章节进行介绍:

1、聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。

2、性能度量

簇内相似度高,簇间相似度低。

外部指标:是将聚类结果与某个“参考模型”进行比较

内部指标:直接考察聚类结果而不利用任何参考模型。

3、距离计算

距离度量满足的基本性质:

非负性、同一性、对称性、直递性

闵可夫斯基距离:

distmk=(∑u=1n|xiu−xju|p)1p

如果p=2时,则表示欧氏距离

如果p=1时,则表示曼哈顿距离

有序属性:

无序属性:

闵可夫斯基可以用于无序属性

对于无序属性可以采用VDM

4、原型聚类

原型聚类亦称“基于原型的聚类”,常用的原型聚类算法如下

1) K均值聚类

K均值聚类算法详细解释可以参阅:http://blog.csdn.net/abcjennifer/article/details/7914952

2)学习向量量化

3)高斯混合聚类

http://blog.csdn.net/sunanger_wang/article/details/8852746

5、密度聚类

基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的聚类,这对于带有噪音点的数据起着重要的作用。

http://blog.csdn.net/google19890102/article/details/37656733

6、层次聚类

层次聚类也叫连通聚类方法,有两个基本方法:自顶而下和自底而上。自顶而将所有样本看做是同一簇,然后进行分裂。自底而上将初所有样本看做不同的簇,然后进行凝聚。这种聚类的中心思想是:离观测点较近的点相比离观测点较远的点更可能是一类。

http://blog.csdn.net/king523103/article/details/49125049
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息