数据引擎-阿里的ODPS大规模计算引擎
2015-11-16 17:08
375 查看
ODPS开放数据处理服务是阿里的大规模分布式数据处理服务,注意这个是目前不开源的产品。
产品定位
RDS(Relational Database Service)是云平台的商业关系型数据库,适合小规模的常规OLTP应用,主要是迁移MySQL,SQL Server等传统数据库,重点是SQL兼容性。
OTS(Open Table Service)开放结构化存储是对大量结构化和半结构化数据存储和时实查询服务。主要是大规模、低延迟和强一致的结构化数据。
ODPS(Open Data Processing Service)开放数据处理服务是对海量且实时要求不高的OLAP应用。主要是构建数据仓库,数据挖掘和商业智能应用。
基本结构
用户可以通过在云端等UI界面提交SQL或者MR等任务,也可以用命令行工具ODPS Client进行操作,底层都是通过ODPS SDK和ODPS REST API服务通信。数据通道则是通过命令行工具dship等,底层是通过ODPS Tunnel SDK和ODPS Protocal buffer API服务通信。 支持的计算包括:SQL基于SQL92支持Python和Java的自定义函数UDF等,MR,DAG编程模型,Graph编程模型用于大数据量的图计算,举个栗子:PageRank;XLib提供SVD分解,逻辑回归、随机深林等分布式算法,用于机器学和数据挖掘。
伏羲系统
伏羲计算平台负责任务调度和资源管理,每个Service启动先运行一个ServiceMaster,负责向FuxiMaster申请资源和调度ServiceWorker到资源机器,伏羲支持DAG模型的任务调度。这个也就是最近阿里云在sortbenchmark获得冠军的核心,主要设计是Network Shuffer的过程:在Shuffle阶段,Map在确定了Partition后,不进行Buffer内排序,而是直接通过网络发给对应的Reduce端,这样Reduce接收的数据是无序的,就要先Buffer内排序也会Dump到本地文件中,最后进行一次归并Merge生成一个大有序文件提供Reduce读入,这样的设计大大减小了数据落盘的IO。
盘古系统
盘古是分布式文件系统,主要是保障极高可用性。数据采用3副本存储方式;元数据采用多Master(1主2备)的机制,Master元数据也采用内存存储,通过快照和日志保证断电恢复。元数据的一致性通过Paxos算法来保证。
产品定位
RDS(Relational Database Service)是云平台的商业关系型数据库,适合小规模的常规OLTP应用,主要是迁移MySQL,SQL Server等传统数据库,重点是SQL兼容性。
OTS(Open Table Service)开放结构化存储是对大量结构化和半结构化数据存储和时实查询服务。主要是大规模、低延迟和强一致的结构化数据。
ODPS(Open Data Processing Service)开放数据处理服务是对海量且实时要求不高的OLAP应用。主要是构建数据仓库,数据挖掘和商业智能应用。
基本结构
用户可以通过在云端等UI界面提交SQL或者MR等任务,也可以用命令行工具ODPS Client进行操作,底层都是通过ODPS SDK和ODPS REST API服务通信。数据通道则是通过命令行工具dship等,底层是通过ODPS Tunnel SDK和ODPS Protocal buffer API服务通信。 支持的计算包括:SQL基于SQL92支持Python和Java的自定义函数UDF等,MR,DAG编程模型,Graph编程模型用于大数据量的图计算,举个栗子:PageRank;XLib提供SVD分解,逻辑回归、随机深林等分布式算法,用于机器学和数据挖掘。
伏羲系统
伏羲计算平台负责任务调度和资源管理,每个Service启动先运行一个ServiceMaster,负责向FuxiMaster申请资源和调度ServiceWorker到资源机器,伏羲支持DAG模型的任务调度。这个也就是最近阿里云在sortbenchmark获得冠军的核心,主要设计是Network Shuffer的过程:在Shuffle阶段,Map在确定了Partition后,不进行Buffer内排序,而是直接通过网络发给对应的Reduce端,这样Reduce接收的数据是无序的,就要先Buffer内排序也会Dump到本地文件中,最后进行一次归并Merge生成一个大有序文件提供Reduce读入,这样的设计大大减小了数据落盘的IO。
盘古系统
盘古是分布式文件系统,主要是保障极高可用性。数据采用3副本存储方式;元数据采用多Master(1主2备)的机制,Master元数据也采用内存存储,通过快照和日志保证断电恢复。元数据的一致性通过Paxos算法来保证。
相关文章推荐
- 康诺云推出三款智能硬件产品,为健康管理业务搭建数据池
- 阿里云这群疯子
- MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程
- 阿里云服务器新建用户具体方法
- 阿里云Windows 2003安装IIS+FTP图文教程
- 阿里云云服务器远程连接管理Linux服务器图文教程
- 阿里云云服务器Linux系统FTP服务器搭建设置教程
- 阿里云主机Windows 2008 32位 64位自助正版激活图文教程
- 阿里云主机Windows Server 2008系统自动激活图文教程
- 阿里云主机Windows 2008服务器硬盘分区和格式化图文教程
- Laravel中使用阿里云OSS Composer包分享
- php+ajax导入大数据时产生的问题处理
- Laravel框架中实现使用阿里云ACE缓存服务
- C# 大数据导出word的假死报错的处理方法
- 阿里云云服务器Linux系统挂载数据盘图文教程
- 阿里云主机一键安装lamp、lnmp环境的shell脚本分享
- win2003分布式文件系统(dfs)配置方法[图文详解]
- 阿里云云服务器Windows 2008下IIS添加网站绑定域名图文教程
- 阿里云云服务器Windows 2008中的FTP配置图文教程
- 阿里云云服务器Windows2003系统中安装和使用FTP图文教程