您的位置:首页 > 大数据

阿里巴巴资深大数据工程师:大数据处理实践

2018-03-26 21:04 393 查看
2018年1月6日的云栖社区数据智能技术论坛上,来自阿里巴巴计算平台事业部高级技术专家少杰带来大数据处理的相关演讲。本文首先浅谈了大数据处理发展历程和MapReduce的诞生,我是大数据爱好者,建了一个大数据资源共享群722680258每天分享大数据搭建学习方法,以确定大数据处理系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。

大数据处理和分布式技术一.大数据处理

二.MapReduce

三.飞天和Maxcompute

四.盘古

伍.伏羲

六.Maxcompute SQL

七,案例分析

如图SQL查询,首先会生成一个TOK Tree,将词法解析成具体的TOK;然后生成一个关系代数树;优化后生成一个执行计划,对应了算法选择等。

执行计划又是如何执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需要把key对应到join key重新分发到下面一堆机器,保证join key在相同机器上都是独立的,都是经过表名做排序的,每一台机器对应execution plan做出最后结果。

Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。

在更高层的调度上,我们支持D2系统,帮助用户实现任务集依赖管理综上,对大数据处理的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:现代大数据处理使用大规模分布式系统搭建的廉价集群。大数据处理系统不是单一系统,通常是分层的设计。飞天/Maxcompute是一个全系统栈、多编程模型、广泛接口支持的大数据处理系统
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息