您的位置:首页 > 其它

基于谱聚类方法的海康威视日线聚类

2017-10-26 20:24 155 查看
摘要:利用滤波算法简化日线数据,动态时间规整(DTW)计算日线间的相关系数,得到2016年1月4日至2017年10月20日间交易日日线间的相似矩阵后,利用谱聚类方法对日线数据进行聚类分析。

关键字: 海康威视;日线;滤波; 动态时间规整(DTW);谱聚类。

1介绍

常用的描述股票单日行情的数据特征包括:最高价,最低价,价差,交易量等。这些特征都属于日线数据的统计学特征,并从某一方面反应当日的交易情况。相比这些统计学特征,当日日线为反应单日交易情况最为直观的数据。因此对股票日线数据进行聚类亦属于日线聚类中最为直观的一种聚类选择。

直接对股票日线这一时间序列进行聚类存在以下难点:

1.日线时间序列不规整,每个交易日间的交易次数属于一个波动值,在一个时间范围内,交易次数在一定的数值间波动,但时间跨度较大的波动均值之间也存在较大的差别.


FIG1
海康威视日交易次数波动图

2.股票价格走势存在较多波动噪声,这些噪声往往不会引起价格走势变动但却大大增加了时间序列的复杂度。

3.价格区间的变化。股票价格随时间波动,在一定时间段内呈现均值波动,然而均值的波动会导致相同的日线走势因属于不同的价格区间划入不同的类别。

4.不同日线间的相关系数的计算。日线数据的不规整导致无法简单套用欧式距离来计算相关系数,通过简单的插值规整会带来日线失真,且难以获得较优的规整参数。另外,直接依靠原始的数据来计算相关系数,庞大的维数也是一个需要克服的问题。

针对上述难点,需对日线数据进行滤波和压缩。滤波可以控制噪声数据的影响,降低时间序列的复杂度,日线数据压缩可以将数据维度降低至较为经济的区间。这样就难点2解决,同时为难点4提供了更多的选择途径。

对于难点4中的相关系数计算,可借鉴声音信号处理中的动态时间规整算法(DTW),DTW在两条待判断的序列中寻找一条最短的折线路径,可以处理不同维度的时间序列。其本身属于动态规划算法,算法计算较为耗时,处理较大维数的时间序列存在一定的性能问题。前述的数据压缩可以较好地解决这个问题。

对于难点3,解决方法很简单,将处理后的数据进行全局参数化后。参数化的区间可以任意选定,以不出现导致计算错误的奇异点为标准。


FIG2
日线的滤波,压缩及参数化

处理后的时间序列在值空间上是规整的,但在维度上并不规整,这决定套用kmeans均值聚类这类的方法需要自定义距离计算函数以及聚类中心的计算方法。距离计算尚可通过前述的解决方案处理,但聚类中心的判定并不是特别的直观。故这里采用计算待聚类的所有交易日之间的相关系数矩阵来规整维度,维度规整完毕后,大部分的聚类算法都能获取聚类结果。这里选取的谱聚类是最常用的依据相关系数矩阵聚类的一种方法。和均值聚类方法类似,谱聚类也需要制定族类数目,这里暂定为5类。

2.聚类结果

单个集合数据较多,这里在每个集合中随机挑选9个交易日的日线数据作为结果展示。

类别1:


FIG3
类别1的日线走势

类别2:



FIG4 类别2的日线走势

类别3:


FIG4
类别3的日线走势

类别4:


FIG6
类别4的日线走势

类别5:


FIG7
类别5的日线走势

总结:

1.该聚类流程较为便捷,使用较小的数据量也能获得较为理想的聚类结果。

2.聚类族数有待进一步优化,但5类的聚类效果也很出色,根据聚类结果可以看出,前两个类别代表这股票日线属于上涨走势,后三个类别的日线则为下行走势。

3.根据各类中成员统计结果可以看出,2016年1月4日至2017年10月20日,下跌走势的日线占比达到64%(所以股票有风险还是很有道理的)。


FIG8各类别中成员数量的统计图

(版权所有,转载请注明出处!)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  股票 海康威视 聚类