数据挖掘学习笔记1——系统聚类与K-均值聚类
2016-03-31 18:27
791 查看
问题:130只股票、31个指标。已获得的数据已经类型一致化与去量纲。
在130只股票数据中
(1)对数据进行系统聚类(SPSS辅助),获取合适的聚类数K;
(2)以合适的聚类数进行K-均值聚类,划分合适的股票板块;
(3)选择每类有代表性数据1-5个。
步骤一 系统聚类(SPSS辅助)
对130只股票公司的财务数据31个指标进行类型一致性与无量纲化处理后,使用SPSS进行系统聚类获取合适的聚类数K。
此处采用最近邻元素法、平方Euclidean距离进行系统聚类。
![](http://img.blog.csdn.net/20160331190648986?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
![](http://img.blog.csdn.net/20160331190934284)
![](http://img.blog.csdn.net/20160331191106535)
SPSS系统聚类树状图
可以由树状图直观地看出系统聚类过程,这里选择聚类数9。即使用K-均值聚类时K选取为9。
步骤二 K-均值聚类
借助数据挖掘软件Clementine,对2003年31个指标130只股票公司的财务数据进行K-均值聚类,划分合适的股票板块,其中设定参数K为9。模型如下图所示:
![](http://img.blog.csdn.net/20160331191513489)
![](http://img.blog.csdn.net/20160331192235305)
聚类结果如下图所示:
![](http://img.blog.csdn.net/20160331192520571)
![](http://img.blog.csdn.net/20160331192525478)
![](http://img.blog.csdn.net/20160331192532462)
最后在clementine中将模型结果输出为excel格式或者其他格式文件,在SPSS中打开,按类与距类中心的距离排序,可以选取每类聚类中心最近的样本作为代表性样本,分析该类的状况。
![](http://img.blog.csdn.net/20160331192538462)
可以看到,此次系统聚类与K-均值聚类的效果并不良好,后期仍需改进。可以考虑主成分分析或因子分析减少31个指标,再进行聚类。
参考文章:点击打开链接
在130只股票数据中
(1)对数据进行系统聚类(SPSS辅助),获取合适的聚类数K;
(2)以合适的聚类数进行K-均值聚类,划分合适的股票板块;
(3)选择每类有代表性数据1-5个。
步骤一 系统聚类(SPSS辅助)
对130只股票公司的财务数据31个指标进行类型一致性与无量纲化处理后,使用SPSS进行系统聚类获取合适的聚类数K。
此处采用最近邻元素法、平方Euclidean距离进行系统聚类。
SPSS系统聚类树状图
可以由树状图直观地看出系统聚类过程,这里选择聚类数9。即使用K-均值聚类时K选取为9。
步骤二 K-均值聚类
借助数据挖掘软件Clementine,对2003年31个指标130只股票公司的财务数据进行K-均值聚类,划分合适的股票板块,其中设定参数K为9。模型如下图所示:
聚类结果如下图所示:
最后在clementine中将模型结果输出为excel格式或者其他格式文件,在SPSS中打开,按类与距类中心的距离排序,可以选取每类聚类中心最近的样本作为代表性样本,分析该类的状况。
可以看到,此次系统聚类与K-均值聚类的效果并不良好,后期仍需改进。可以考虑主成分分析或因子分析减少31个指标,再进行聚类。
参考文章:点击打开链接
相关文章推荐
- java开发经验分享(四)
- bzoj 1778 [Usaco2010 Hol]Dotp 驱逐猪猡(高斯消元)
- Java调用webservice接口
- hello
- 总线带宽
- 7.字符设备驱动编程模型
- Java DES加密解密工具类
- 如何一次性添加多个.cpp文件
- java开发经验分享(三)
- Android 应用中使用ContentObserver自动填写短信验证码
- SCTP协议详解与实例
- bank掉回弹效果
- 数据结构与算法之快速排序
- iOS 货币计算
- Types of Windows
- java开发经验分享(二)
- codeforces 19B Checkout Assistant DP
- 代码重构(五):继承关系重构规则
- Ubuntu下deb包
- C++第2次上机实验(学生成绩)