您的位置：首页 > 其它

数据挖掘算法--聚类分析

2015-06-22 17:38 357 查看

1. 聚类分析的提出

物以类聚，人以群分！志同而道合，即具有相同特点的物体（或人类）往往更容易走近，从而形成自己的一个“圈子”。
在现代零售行业，顾客群细分是最为常见的一种业务需求，一般情况下，会从客户性别、年龄、职业、消费金额等一个变量进行分组，或者几个简单变量交叉分组。但这种传统的客户细分模式往往会体现以下弊端：
1）客户细分之前，需要人为指定分类变量，需要用几个变量、什么变量往往受人为因素影响较大。
2）人为制定的分类属性，往往体现了群体的局部特征，并不能描述群体的整体特征。
相比而言，聚类分析是解决传统客户细分的有效方法。它能够将数据样本，在没有先验知识的前提下，依据数据的整体属性，依照其内在的亲疏程度进行自动分组，能够使组内个体尽可能亲密，组间个体尽可能疏远。
此处所指，没有先验知识是无需提前设定分类属性；亲疏程度一般有两个评估标准，相似程度和差异程度。

2. 聚类算法分类

依照不同的分类标准，可以从不同角度对聚类算法进行划分：
（1）聚类结果角度
聚类算法可以分为覆盖聚类算法和非覆盖聚类算法。覆盖聚类算法指的是任何一个个体都会隶属于至少一个类，反之则为非覆盖聚类算法。
聚类算法还可以分为层次聚类和非层次聚类，层次聚类指的存在一个类属于另外一个类的子集，反之则成为非层次聚类。
聚类算法还可以分为确定聚类和模糊聚类。确定聚类即任意两个类的交集为空，任何一个个体只能属于一个类，否则称为模糊聚类。
（2）聚类变量角度
变量一般分为数值型变量和分类型变量。同样，依照聚类变量角度，聚类算法可以分为数值型聚类算法、分类型聚类算法和混合型聚类算法。
（3）聚类的原理角度
依照聚类的原理，聚类算法一般可以分为划分聚类（Partitional clusting）算法、层次聚类（Hierarchical clusting）算法、基于密度的聚类（Density-based clusting）算法以及网格聚类（Grid clusting）算法等。
目前较为流行的聚类算法有K-Means聚类算法、两步聚类算法、Kohonen网络聚类算法。

3. 常用聚类算法

3.1 K-Means聚类算法

K-Means聚类，属于覆盖型数值划分聚类算法，它所得到的聚类结果，往往每个样本点都唯一属于一个类，且聚类变量通常为数值型变量，并采用划分原理进行聚类。聚类王湾涉及两个问题：（1）如何衡量样本之间的“亲疏程度”；（2）如何进行聚类。衡量样本亲疏程度一般有两个角度，其一是相似程度，其二是差异程度。衡量相似程度一般可用简单相关系数或等级相关系数，差异程度一般通过某种距离来测度。K-Means聚类算法采用距离角度来测量样本之间的亲疏程度。

3.1.1 差异性度量方法

（1）数量型指标
K-Means一般采用欧式距离计算样本之间的距离，欧式距离公式如下：

除此之外，常用作计算数量型指标之间距离的方法有，

3.2 两步聚类算法

3.3 Kohonen网络聚类算法

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航