您的位置:首页 > 其它

聚类分析学习笔记

2014-04-28 14:16 211 查看
样本聚类

变量聚类,R型聚类

样本内距离尽可能小

不同样本间距离尽可能大

分类要有实际意义

1. 二阶聚类(2步聚类)

分层聚类算法, 目前多应用于数据挖掘与多元统计的交叉领域,其算法适用于任何尺度的变量。

能够处理连续变量和分类变量的混合数据。

第一步:

针对大样本聚类产生的BIRCH(Balance Iterative Reducing and Clustering using Hierarchies)算法,分成许多子类(sub-cluster)。

第二步:

第一步的子类利用分层聚类方法再次聚类,使用对数似然函数作为距离测量公式,

利用第一步的结果对每个样本进行再次聚类并对每个聚类成员计算一些判别值(AIC或BIC),并用来估计类的最初数目。

常用算法: 分层聚类算法。

使用前提:

变量之间不存在多重共线性

变量服从正态分布

2. K均值聚类

适用于样本聚类,不适用于变量聚类

聚类数量

中心坐标

ANOVA, Sig<0.01, 差异极其显著, 分类有效

3. 层次聚类

凝聚法

相反法

样本量不大, 事先并不知道分为几类

平均联结:

群集组合中:群集1和群集2进行联结

系数表示群集的距离

首次出现阶群集:群集1和群集2出现的阶数

冰柱图:

列:个案

行:聚类的步数

两个个案之间的冰柱表示距离(从下往上看越长越近),顺序参考聚类表

8.5.3. 判别分析

适用条件:

a.自变量服从多元正态分布,且不存在多重共线性

b.所有自变量在各组之间方差齐性,协方差矩阵相等(可增加样本减小影响)

c.因变量的取值应是确定且独立的

d.自变量与因变量的关系符合线性假设

一般样本量的个数,是所使用的自变量的个数的5倍以上

组均值的均等性的检验:

反映了各个组在不同指标上均值差异情况(都显著)

协方差矩阵的均等性的箱式检验:

BOX检验:.001差异显著,表示拒绝各个组协方差矩阵相等。即不相等。建议使用分组的协方差矩阵。

步骤统计:

国有输入, Sig=.000,非常显著的作用

分析中的变量:

特征值:

携带信息量的多少,特征值越大表示该函数的区分性越高

正则相关性:表示区别函数与组别间关联的程度, .939

标准化的典型判别式函数系数:

主要受影响的变量: 国有

分类函数系数:

判别函数: F1 = -67.935 + 0.005*国有

  F2 = -15.170 + 0.002*国有
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  聚类 数据挖掘