您的位置:首页 > 大数据

阿里巴巴少杰:大数据处理实践

2018-01-19 15:28 253 查看
2018年1月6日的云栖社区数据智能技术论坛上,来自阿里巴巴计算平台事业部高级技术专家少杰带来大数据处理的相关演讲。本文首先浅谈了大数据处理发展历程和MapReduce的诞生,以确定大数据处理系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。以下是精彩视频内容整理:大数据处理和分布式技术大数据处理我们在数据中心的设置上,经历了三个阶段。80年代中期以前,我们是对于文件做处理的模式,只能处理KB-MB的数据;2010年以前,这是DataBase辉煌的年代,无论是开发信息平台还是互联网应用,都是以DataBase为中心的,比如Oracle、SQLserver、MySQL等,DataBase上也有很多生态系统,可以处理MB-GB级数据;随着数据量持续爆炸,传统DataBase很难支持下去,所以一批大数据处理平台应运而生,比如Hadoop、Spark、Flink等,可以处理100GB-PB级存储和计算。传统的大数据用例包括日志分析(网站被如何访问,货被如何移动)、商业智能和数据挖掘(人工智能算法)、图计算、检索、机器学习和人工智能等一些更高级计算都在上面。所以,Maxcompute可以支持多编程模型多用例的开发模式。每一种应用都有各自的挑战,和传统DataBase系统比较,如果数据量极大,会存在硬件故障、网络带宽和延迟、(存储、计算)成本和效率/时效性等多方面挑战。伴随这些挑战带来的冲突,我们要重新审视传统数据库设计,传统数据库强调ACID、强调隔离性、强调一致性,这些在分布式环境中很难保证,比如网络时效性需要高性能,写机房时需要异步方式同步到另一个机房,这时很难保证一致性。此外,传统数据库都是结构化/关系型的,如果处理大数据,很多大数据通常不是结构化的,一些新的人工智能应用可能不需要结构化存储,结构化存储可能影响设计;传统并行计算也有很多尝试,包括复杂事件处理和MPI处理,但是事实上还不能打破条件,而且性能和相关指标也达不到要求。MapReduce因此,MapReduce诞生了。通过数据本身特性,用KEY value数据结构组织数据,每一个worker可以通过Map处理一个KEY value数据结构,KEY value 数据结构用KEY特性重新分布数据,再用下一批任务去做处理,MapReduce可以描述很多复杂的逻辑,MapReduce没有尝试像CEP或MPI去构造一个通用的超高性能高并发计算机,而是通过需要用户去改变编程模型来实现分布式数据处理。Hadoop是MapReduce论文的参考实现,发表论文一两年后,Hadoop已经成为独立项目,它经历几个代表性阶段Hadoop1.0阶段对应MapReduce、HDFS、HBase、Hive/Pig/Cascades,Hadoop得到飞速发展;Hadoop2.0阶段对应HDFS federation,、YARN、 Tez,Hadoop得到广泛接受,是可以面向企业级的成熟软件;现阶段,Hadoop不仅仅局限于自身系统,包括周边系统,像Spark,Flink, Presto/Drill, Cassandra都和Hadoop有千丝万缕联系,共同构建了一个生态圈。总结来说,大数据系统实现模式表现为:层次化设计。通常一个大数据系统下面会有一个分布式文件系统,分布式文件系统下会有分布式调度系统,分布式调度系统下可能会有编程模型的实现,这与Maxcompute实现较类似;去中心/弱中心控制。没有中心节点,不必连接某个节点才能接入整个分布式系统;Commodity Computing。我们希望使用廉价机器,用全分布系统搭建,而非专有昂贵硬件才可以搭建系统。
阅读原文
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: