您的位置：首页 > 其它

数据挖掘学习笔记1——系统聚类与K-均值聚类

2016-03-31 18:27 791 查看

问题：130只股票、31个指标。已获得的数据已经类型一致化与去量纲。

在130只股票数据中

（1）对数据进行系统聚类（SPSS辅助），获取合适的聚类数K；

（2）以合适的聚类数进行K-均值聚类，划分合适的股票板块；

（3）选择每类有代表性数据1-5个。

步骤一系统聚类（SPSS辅助）
对130只股票公司的财务数据31个指标进行类型一致性与无量纲化处理后，使用SPSS进行系统聚类获取合适的聚类数K。

此处采用最近邻元素法、平方Euclidean距离进行系统聚类。

SPSS系统聚类树状图

可以由树状图直观地看出系统聚类过程，这里选择聚类数9。即使用K-均值聚类时K选取为9。

步骤二 K-均值聚类

借助数据挖掘软件Clementine，对2003年31个指标130只股票公司的财务数据进行K-均值聚类，划分合适的股票板块，其中设定参数K为9。模型如下图所示：

聚类结果如下图所示：

最后在clementine中将模型结果输出为excel格式或者其他格式文件，在SPSS中打开，按类与距类中心的距离排序，可以选取每类聚类中心最近的样本作为代表性样本，分析该类的状况。

可以看到，此次系统聚类与K-均值聚类的效果并不良好，后期仍需改进。可以考虑主成分分析或因子分析减少31个指标，再进行聚类。

参考文章：点击打开链接

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航