基于分布式计算平台的流数据挖掘框架设计
2016-11-27 11:26
651 查看
随着人们在互联网、金融、物联网等领域的应用和普及日益频繁,数据的体量和形式也正随着人们的使用而变得日益庞大和复杂。数据正在以一种前所未有的方式疯狂增长,这不仅给数据挖掘带来了价值,也同时给从事数据挖掘的专家和学者们带来了难题。传统数据挖掘研究分析的数据是存储到磁盘的数据,属于静态的数据,数据量较小并且数据不会随着时间发生动态变化。而大数据不仅在体量上是海量数据的规模,而且更加复杂和多维。更重要的是,大数据具有实时性和连续性的特点,如此庞大的数据流不仅要求我们在短时间内能够快速得到数据模型,还要求我们能够及时将结果反馈给用户,从而真正实现获取数据的价值。如2.2节所述,针对目前的流数据形式,专家和学者们在流分类挖掘算法上提供了很多有益的研究。主要从单分类器和集成分类器两方面展开了研究。一就是从流分类算法本身进行改进,包括添加滑动窗口,设置备选树,周期性扫描等。二就是通过将数据流分块,然后分别建立子分类器,通过权重系数投票机制建立集成分类器从而提高分离器的准确率。
不管是从流分类算法自身出发,还是从集成分类器展开研究,都无法避免的问题就是虽然对分类精确度进行了提高,但是都是以牺牲系统的时间复杂度和空间复杂度为代价,而大数据应用又需要能够以一次读取流数据的形式得到模型及时反馈结果。所以,流分类算法结合分布式计算平台将有效的解决上述的问题。目前,越来越多的专家和学者已经将视线转移到如何有效的利用分布式计算平台来快速有效的解决流数据挖掘的问题从而解决实际应用中的实时性和准确率。如图2.4所示,基于分布式计算平台的流数据挖掘框架由三层组成,分别是应用层、流数据算法层和分布式计算层。其中数据流通过分布式计算平台计算实现流数据算法层的算法从而满足应用层的应用需求。本论文采用Storm作为分布式计算平台的并行数据处理层,通过将流数据分类算法采用垂直并行化的方式将流分类算法中最消耗时间复杂度的样本属性信息熵计算通过并行计算的方式快速得到结果,从而提高了流分类挖掘算法的效率。通过并行计算可以预测数据流中的概念漂移,从而提高模型建立的准确率,有效的降低当发生概念漂移时,分类器的准确率下降的问题。
不管是从流分类算法自身出发,还是从集成分类器展开研究,都无法避免的问题就是虽然对分类精确度进行了提高,但是都是以牺牲系统的时间复杂度和空间复杂度为代价,而大数据应用又需要能够以一次读取流数据的形式得到模型及时反馈结果。所以,流分类算法结合分布式计算平台将有效的解决上述的问题。目前,越来越多的专家和学者已经将视线转移到如何有效的利用分布式计算平台来快速有效的解决流数据挖掘的问题从而解决实际应用中的实时性和准确率。如图2.4所示,基于分布式计算平台的流数据挖掘框架由三层组成,分别是应用层、流数据算法层和分布式计算层。其中数据流通过分布式计算平台计算实现流数据算法层的算法从而满足应用层的应用需求。本论文采用Storm作为分布式计算平台的并行数据处理层,通过将流数据分类算法采用垂直并行化的方式将流分类算法中最消耗时间复杂度的样本属性信息熵计算通过并行计算的方式快速得到结果,从而提高了流分类挖掘算法的效率。通过并行计算可以预测数据流中的概念漂移,从而提高模型建立的准确率,有效的降低当发生概念漂移时,分类器的准确率下降的问题。
相关文章推荐
- PLUTO平台是由美林数据技术股份有限公司下属西安交大美林数据挖掘研究中心自主研发的一款基于云计算技术架构的数据挖掘产品,产品设计严格遵循国际数据挖掘标准CRISP-DM(跨行业数据挖掘过程标准),具备完备的数据准备、模型构建、模型评估、模型管理、海量数据处理和高纬数据可视化分析能力。
- PLUTO平台是由美林数据技术股份有限公司下属西安交大美林数据挖掘研究中心自主研发的一款基于云计算技术架构的数据挖掘产品,产品设计严格遵循国际数据挖掘标准CRISP-DM(跨行业数据挖掘过程标准),具备完备的数据准备、模型构建、模型评估、模型管理、海量数据处理和高纬数据可视化分析能力。
- 基于Hadoop、HBase的数据分析挖掘管理平台-舆情预警监控系统 (系统总体设计图)
- 基于WF设计业务流程平台_数据冲突
- 基于ArcEngine+C#设计与开发国土资源一张图空间数据管理平台软件
- 基于kerberos的分布式计算平台安全
- Netra基于Rdk平台的软件框架设计
- 基于.Net(C#开发)平台的三层框架架构软件的设计与实现
- [转载]基于数据挖掘的入侵检测系统设计
- 基于Hadoop的大数据平台实施记——整体架构设计
- 基于ArcEngine+C#实现的JLKDataManager空间数据平台架构设计
- hadoop(适合大数据的分布式存储和分布式计算平台)---总结
- 基于.Net(C#开发)平台的三层框架架构软件的设计与实现
- 基于kerberos的分布式计算平台安全
- 基于Hadoop的大数据平台实施记——整体架构设计
- 基于开源BI平台Openi的数据仓库系统的设计开发
- 【转】基于Hadoop平台的并行数据挖掘算法工具-Dodo
- 基于Hadoop平台的并行数据挖掘算法工具-Dodo
- 基于ArcEngine+C#开发的空间数据管理平台架构设计及功能说明
- Netra基于Rdk平台的软件框架设计