阿里巴巴资深大数据工程师:大数据处理实践
2018-03-26 21:04
393 查看
2018年1月6日的云栖社区数据智能技术论坛上,来自阿里巴巴计算平台事业部高级技术专家少杰带来大数据处理的相关演讲。本文首先浅谈了大数据处理发展历程和MapReduce的诞生,我是大数据爱好者,建了一个大数据资源共享群722680258每天分享大数据搭建学习方法,以确定大数据处理系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。
大数据处理和分布式技术一.大数据处理
二.MapReduce
三.飞天和Maxcompute
四.盘古
伍.伏羲
六.Maxcompute SQL
七,案例分析
如图SQL查询,首先会生成一个TOK Tree,将词法解析成具体的TOK;然后生成一个关系代数树;优化后生成一个执行计划,对应了算法选择等。
执行计划又是如何执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需要把key对应到join key重新分发到下面一堆机器,保证join key在相同机器上都是独立的,都是经过表名做排序的,每一台机器对应execution plan做出最后结果。
Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。
在更高层的调度上,我们支持D2系统,帮助用户实现任务集依赖管理综上,对大数据处理的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:现代大数据处理使用大规模分布式系统搭建的廉价集群。大数据处理系统不是单一系统,通常是分层的设计。飞天/Maxcompute是一个全系统栈、多编程模型、广泛接口支持的大数据处理系统
大数据处理和分布式技术一.大数据处理
二.MapReduce
三.飞天和Maxcompute
四.盘古
伍.伏羲
六.Maxcompute SQL
七,案例分析
如图SQL查询,首先会生成一个TOK Tree,将词法解析成具体的TOK;然后生成一个关系代数树;优化后生成一个执行计划,对应了算法选择等。
执行计划又是如何执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需要把key对应到join key重新分发到下面一堆机器,保证join key在相同机器上都是独立的,都是经过表名做排序的,每一台机器对应execution plan做出最后结果。
Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。
在更高层的调度上,我们支持D2系统,帮助用户实现任务集依赖管理综上,对大数据处理的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:现代大数据处理使用大规模分布式系统搭建的廉价集群。大数据处理系统不是单一系统,通常是分层的设计。飞天/Maxcompute是一个全系统栈、多编程模型、广泛接口支持的大数据处理系统
相关文章推荐
- 阿里巴巴资深大数据工程师:大数据处理实践
- 阿里巴巴少杰:大数据处理实践
- 【BDTC2016】大数据分析与生态系统论坛:大数据存储、处理技术大比评 百花齐放落地实践大展现
- 专访百度资深工程师孙源:代码强迫症的死实践派
- 【51CTO学院三周年】我的数据处理工程师入门之路
- 日处理20亿数据,实时用户行为服务系统架构实践
- 阿里巴巴大数据实践之数据建模
- SARscape处理ALOS数据实践
- Android无线开发的几种常用技术(阿里巴巴资深工程师原创分享)
- java处理json类型数据--阿里巴巴fastjson api常用方法实战
- 2015-09-09 [一点资讯]--数据抓取和处理工程师--2面
- 大数据处理工具之Hive安装配置实践
- 阿里巴巴 算法、数据工程师笔试题选解
- 推荐一本今年八月份的新书《后台开发:核心技术与应用实践》,作者腾讯资深后台开发工程师徐晓鑫
- 阿里巴巴大数据实践之数据建模
- 《深入理解大数据-大数据处理与编辑实践》hadoop1.2.1安装
- 2015-09-09 [一点资讯]--数据抓取和处理工程师--3面
- 阿里巴巴电话面试2面总结_数据挖掘工程师(天猫事业部)
- 阿里巴巴大数据实践-读书笔记
- 阿里巴巴大数据实践之数据建模