您的位置:首页 > 大数据

基于分布式计算平台的流数据挖掘框架设计

2016-11-27 11:26 651 查看
随着人们在互联网、金融、物联网等领域的应用和普及日益频繁,数据的体量和形式也正随着人们的使用而变得日益庞大和复杂。数据正在以一种前所未有的方式疯狂增长,这不仅给数据挖掘带来了价值,也同时给从事数据挖掘的专家和学者们带来了难题。传统数据挖掘研究分析的数据是存储到磁盘的数据,属于静态的数据,数据量较小并且数据不会随着时间发生动态变化。而大数据不仅在体量上是海量数据的规模,而且更加复杂和多维。更重要的是,大数据具有实时性和连续性的特点,如此庞大的数据流不仅要求我们在短时间内能够快速得到数据模型,还要求我们能够及时将结果反馈给用户,从而真正实现获取数据的价值。如2.2节所述,针对目前的流数据形式,专家和学者们在流分类挖掘算法上提供了很多有益的研究。主要从单分类器和集成分类器两方面展开了研究。一就是从流分类算法本身进行改进,包括添加滑动窗口,设置备选树,周期性扫描等。二就是通过将数据流分块,然后分别建立子分类器,通过权重系数投票机制建立集成分类器从而提高分离器的准确率。

不管是从流分类算法自身出发,还是从集成分类器展开研究,都无法避免的问题就是虽然对分类精确度进行了提高,但是都是以牺牲系统的时间复杂度和空间复杂度为代价,而大数据应用又需要能够以一次读取流数据的形式得到模型及时反馈结果。所以,流分类算法结合分布式计算平台将有效的解决上述的问题。目前,越来越多的专家和学者已经将视线转移到如何有效的利用分布式计算平台来快速有效的解决流数据挖掘的问题从而解决实际应用中的实时性和准确率。如图2.4所示,基于分布式计算平台的流数据挖掘框架由三层组成,分别是应用层、流数据算法层和分布式计算层。其中数据流通过分布式计算平台计算实现流数据算法层的算法从而满足应用层的应用需求。本论文采用Storm作为分布式计算平台的并行数据处理层,通过将流数据分类算法采用垂直并行化的方式将流分类算法中最消耗时间复杂度的样本属性信息熵计算通过并行计算的方式快速得到结果,从而提高了流分类挖掘算法的效率。通过并行计算可以预测数据流中的概念漂移,从而提高模型建立的准确率,有效的降低当发生概念漂移时,分类器的准确率下降的问题。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐