聚类分析学习笔记
2014-04-28 14:16
211 查看
样本聚类
变量聚类,R型聚类
样本内距离尽可能小
不同样本间距离尽可能大
分类要有实际意义
1. 二阶聚类(2步聚类)
分层聚类算法, 目前多应用于数据挖掘与多元统计的交叉领域,其算法适用于任何尺度的变量。
能够处理连续变量和分类变量的混合数据。
第一步:
针对大样本聚类产生的BIRCH(Balance Iterative Reducing and Clustering using Hierarchies)算法,分成许多子类(sub-cluster)。
第二步:
第一步的子类利用分层聚类方法再次聚类,使用对数似然函数作为距离测量公式,
利用第一步的结果对每个样本进行再次聚类并对每个聚类成员计算一些判别值(AIC或BIC),并用来估计类的最初数目。
常用算法: 分层聚类算法。
使用前提:
变量之间不存在多重共线性
变量服从正态分布
2. K均值聚类
适用于样本聚类,不适用于变量聚类
聚类数量
中心坐标
ANOVA, Sig<0.01, 差异极其显著, 分类有效
3. 层次聚类
凝聚法
相反法
样本量不大, 事先并不知道分为几类
平均联结:
群集组合中:群集1和群集2进行联结
系数表示群集的距离
首次出现阶群集:群集1和群集2出现的阶数
冰柱图:
列:个案
行:聚类的步数
两个个案之间的冰柱表示距离(从下往上看越长越近),顺序参考聚类表
8.5.3. 判别分析
适用条件:
a.自变量服从多元正态分布,且不存在多重共线性
b.所有自变量在各组之间方差齐性,协方差矩阵相等(可增加样本减小影响)
c.因变量的取值应是确定且独立的
d.自变量与因变量的关系符合线性假设
一般样本量的个数,是所使用的自变量的个数的5倍以上
组均值的均等性的检验:
反映了各个组在不同指标上均值差异情况(都显著)
协方差矩阵的均等性的箱式检验:
BOX检验:.001差异显著,表示拒绝各个组协方差矩阵相等。即不相等。建议使用分组的协方差矩阵。
步骤统计:
国有输入, Sig=.000,非常显著的作用
分析中的变量:
特征值:
携带信息量的多少,特征值越大表示该函数的区分性越高
正则相关性:表示区别函数与组别间关联的程度, .939
标准化的典型判别式函数系数:
主要受影响的变量: 国有
分类函数系数:
判别函数: F1 = -67.935 + 0.005*国有
F2 = -15.170 + 0.002*国有
变量聚类,R型聚类
样本内距离尽可能小
不同样本间距离尽可能大
分类要有实际意义
1. 二阶聚类(2步聚类)
分层聚类算法, 目前多应用于数据挖掘与多元统计的交叉领域,其算法适用于任何尺度的变量。
能够处理连续变量和分类变量的混合数据。
第一步:
针对大样本聚类产生的BIRCH(Balance Iterative Reducing and Clustering using Hierarchies)算法,分成许多子类(sub-cluster)。
第二步:
第一步的子类利用分层聚类方法再次聚类,使用对数似然函数作为距离测量公式,
利用第一步的结果对每个样本进行再次聚类并对每个聚类成员计算一些判别值(AIC或BIC),并用来估计类的最初数目。
常用算法: 分层聚类算法。
使用前提:
变量之间不存在多重共线性
变量服从正态分布
2. K均值聚类
适用于样本聚类,不适用于变量聚类
聚类数量
中心坐标
ANOVA, Sig<0.01, 差异极其显著, 分类有效
3. 层次聚类
凝聚法
相反法
样本量不大, 事先并不知道分为几类
平均联结:
群集组合中:群集1和群集2进行联结
系数表示群集的距离
首次出现阶群集:群集1和群集2出现的阶数
冰柱图:
列:个案
行:聚类的步数
两个个案之间的冰柱表示距离(从下往上看越长越近),顺序参考聚类表
8.5.3. 判别分析
适用条件:
a.自变量服从多元正态分布,且不存在多重共线性
b.所有自变量在各组之间方差齐性,协方差矩阵相等(可增加样本减小影响)
c.因变量的取值应是确定且独立的
d.自变量与因变量的关系符合线性假设
一般样本量的个数,是所使用的自变量的个数的5倍以上
组均值的均等性的检验:
反映了各个组在不同指标上均值差异情况(都显著)
协方差矩阵的均等性的箱式检验:
BOX检验:.001差异显著,表示拒绝各个组协方差矩阵相等。即不相等。建议使用分组的协方差矩阵。
步骤统计:
国有输入, Sig=.000,非常显著的作用
分析中的变量:
特征值:
携带信息量的多少,特征值越大表示该函数的区分性越高
正则相关性:表示区别函数与组别间关联的程度, .939
标准化的典型判别式函数系数:
主要受影响的变量: 国有
分类函数系数:
判别函数: F1 = -67.935 + 0.005*国有
F2 = -15.170 + 0.002*国有
相关文章推荐
- 详解BI/数据分析/数据挖掘/业务分析概念 7fe0
- Sedgewick之巨著《算法》,与高德纳TAOCP一脉相承
- 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
- 聚类算法总结
- 一位数据挖掘成功人士给数据挖掘在读研究生的建议
- 数据挖掘网上资料大全
- 数据挖掘技术与用户知识获取
- Data mining 数据挖掘
- 数据挖掘
- 大数据,且行且思( 文/ 占超群)
- kmeans python版
- 数据挖掘-聚类-K-means算法Java实现
- 长期招聘:个性化推荐
- 2013年1季度中国汽车车型动力满意度研究报告 ——合资A+级车
- DB2技术专家沙龙活动演讲主题(9月5日上海站)
- EXCEL-1 基础学习
- (转)智能+可视化 看商业智能的发展方向
- 写在3月8号的话
- 阿里巴巴2016数据挖掘工程师真题在线测
- 数据挖掘算法之关联规则挖掘(二)FPGrowth算法