您的位置:首页 > 其它

数据挖掘学习笔记1——系统聚类与K-均值聚类

2016-03-31 18:27 791 查看
问题:130只股票、31个指标。已获得的数据已经类型一致化与去量纲。

在130只股票数据中

(1)对数据进行系统聚类(SPSS辅助),获取合适的聚类数K;

(2)以合适的聚类数进行K-均值聚类,划分合适的股票板块;

(3)选择每类有代表性数据1-5个。

步骤一 系统聚类(SPSS辅助)
对130只股票公司的财务数据31个指标进行类型一致性与无量纲化处理后,使用SPSS进行系统聚类获取合适的聚类数K。

此处采用最近邻元素法、平方Euclidean距离进行系统聚类。







SPSS系统聚类树状图

可以由树状图直观地看出系统聚类过程,这里选择聚类数9。即使用K-均值聚类时K选取为9。

步骤二 K-均值聚类

借助数据挖掘软件Clementine,对2003年31个指标130只股票公司的财务数据进行K-均值聚类,划分合适的股票板块,其中设定参数K为9。模型如下图所示:





聚类结果如下图所示:







最后在clementine中将模型结果输出为excel格式或者其他格式文件,在SPSS中打开,按类与距类中心的距离排序,可以选取每类聚类中心最近的样本作为代表性样本,分析该类的状况。



可以看到,此次系统聚类与K-均值聚类的效果并不良好,后期仍需改进。可以考虑主成分分析或因子分析减少31个指标,再进行聚类。

参考文章:点击打开链接
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: