您的位置:首页 > 其它

数据挖掘算法--聚类分析

2015-06-22 17:38 357 查看

1. 聚类分析的提出

物以类聚,人以群分!志同而道合,即具有相同特点的物体(或人类)往往更容易走近,从而形成自己的一个“圈子”。
在现代零售行业,顾客群细分是最为常见的一种业务需求,一般情况下,会从客户性别、年龄、职业、消费金额等一个变量进行分组,或者几个简单变量交叉分组。但这种传统的客户细分模式往往会体现以下弊端:
1)客户细分之前,需要人为指定分类变量,需要用几个变量、什么变量往往受人为因素影响较大。
2)人为制定的分类属性,往往体现了群体的局部特征,并不能描述群体的整体特征。
相比而言,聚类分析是解决传统客户细分的有效方法。它能够将数据样本,在没有先验知识的前提下,依据数据的整体属性,依照其内在的亲疏程度进行自动分组,能够使组内个体尽可能亲密,组间个体尽可能疏远。
此处所指,没有先验知识是无需提前设定分类属性;亲疏程度一般有两个评估标准,相似程度和差异程度。

2. 聚类算法分类

依照不同的分类标准,可以从不同角度对聚类算法进行划分:
(1)聚类结果角度
聚类算法可以分为覆盖聚类算法和非覆盖聚类算法。覆盖聚类算法指的是任何一个个体都会隶属于至少一个类,反之则为非覆盖聚类算法。
聚类算法还可以分为层次聚类和非层次聚类,层次聚类指的存在一个类属于另外一个类的子集,反之则成为非层次聚类。
聚类算法还可以分为确定聚类和模糊聚类。确定聚类即任意两个类的交集为空,任何一个个体只能属于一个类,否则称为模糊聚类。
(2)聚类变量角度
变量一般分为数值型变量和分类型变量。同样,依照聚类变量角度,聚类算法可以分为数值型聚类算法、分类型聚类算法和混合型聚类算法。
(3)聚类的原理角度
依照聚类的原理,聚类算法一般可以分为划分聚类(Partitional clusting)算法、层次聚类(Hierarchical clusting)算法、基于密度的聚类(Density-based clusting)算法以及网格聚类(Grid clusting)算法等。
目前较为流行的聚类算法有K-Means聚类算法、两步聚类算法、Kohonen网络聚类算法。

3. 常用聚类算法

3.1 K-Means聚类算法

K-Means聚类,属于覆盖型数值划分聚类算法,它所得到的聚类结果,往往每个样本点都唯一属于一个类,且聚类变量通常为数值型变量,并采用划分原理进行聚类。聚类王湾涉及两个问题:(1)如何衡量样本之间的“亲疏程度”;(2)如何进行聚类。衡量样本亲疏程度一般有两个角度,其一是相似程度,其二是差异程度。衡量相似程度一般可用简单相关系数或等级相关系数,差异程度一般通过某种距离来测度。K-Means聚类算法采用距离角度来测量样本之间的亲疏程度。

3.1.1 差异性度量方法

(1)数量型指标
K-Means一般采用欧式距离计算样本之间的距离,欧式距离公式如下:

除此之外,常用作计算数量型指标之间距离的方法有,

3.2 两步聚类算法

3.3 Kohonen网络聚类算法

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: