阿里巴巴资深大数据工程师:大数据处理实践
2018-04-02 11:34
471 查看
2018年1月6日的云栖社区数据智能技术论坛上,来自阿里巴巴计算平台事业部高级技术专家少杰带来大数据处理的相关演讲。本文首先浅谈了大数据处理发展历程和MapReduce的诞生,我是大数据爱好者,建了一个大数据资源共享群722680258 每天分享大数据搭建学习方法,以确定大数据处理系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。
大数据处理和分布式技术一.大数据处理
二.MapReduce
三.飞天和Maxcompute
四.盘古
伍.伏羲
六.Maxcompute SQL
七,案例分析
如图SQL查询,首先会生成一个TOK Tree,将词法解析成具体的TOK;然后生成一个关系代数树;优化后生成一个执行计划,对应了算法选择等。
执行计划又是如何执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需要把key对应到join key重新分发到下面一堆机器,保证join key在相同机器上都是独立的,都是经过表名做排序的,每一台机器对应execution plan做出最后结果。
Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。
在更高层的调度上,我们支持D2系统,帮助用户实现任务集依赖管理综上,对大数据处理的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:现代大数据处理使用大规模分布式系统搭建的廉价集群。大数据处理系统不是单一系统,通常是分层的设计。飞天/Maxcompute是一个全系统栈、多编程模型、广泛接口支持的大数据处理系统
大数据处理和分布式技术一.大数据处理
二.MapReduce
三.飞天和Maxcompute
四.盘古
伍.伏羲
六.Maxcompute SQL
七,案例分析
如图SQL查询,首先会生成一个TOK Tree,将词法解析成具体的TOK;然后生成一个关系代数树;优化后生成一个执行计划,对应了算法选择等。
执行计划又是如何执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需要把key对应到join key重新分发到下面一堆机器,保证join key在相同机器上都是独立的,都是经过表名做排序的,每一台机器对应execution plan做出最后结果。
Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。
在更高层的调度上,我们支持D2系统,帮助用户实现任务集依赖管理综上,对大数据处理的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:现代大数据处理使用大规模分布式系统搭建的廉价集群。大数据处理系统不是单一系统,通常是分层的设计。飞天/Maxcompute是一个全系统栈、多编程模型、广泛接口支持的大数据处理系统
相关文章推荐
- 阿里巴巴资深大数据工程师:大数据处理实践
- 阿里巴巴少杰:大数据处理实践
- [算法]2018年阿里巴巴数据研发工程师编程题
- 中小企业采用混合云处理大数据的三个最佳实践
- 2015-09-09 [一点资讯]--数据抓取和处理工程师--2面
- 2015-08-11 [今日头条]--数据抓取和处理工程师--1面
- 日均请求量百亿级数据处理平台的容器云实践
- 携程日处理20亿数据,实时用户行为服务系统架构实践
- 阿里巴巴 算法、数据工程师笔试题选解
- 日处理20亿数据,实时用户行为服务系统架构实践
- ajax 请求二进制流 图片 文件 XMLHttpRequest 请求并处理二进制流数据 之最佳实践
- 2013 阿里巴巴算法、数据工程师笔试题选解
- 2015-09-09 [一点资讯]--数据抓取和处理工程师--3面
- 阿里巴巴大数据实践之数据建模
- (大数据工程师学习路径)第一步 Linux 基础入门----简单的文本处理
- 日均请求量百亿级数据处理平台的容器云实践
- 阿里巴巴算法、数据工程师笔试题选解
- 《深入理解大数据-大数据处理与编辑实践》hadoop1.2.1安装
- 携程日处理20亿数据,实时用户行为服务系统架构实践