大数据SQL交互查询 presto/spark/mapreduce 计算引擎对比
2017-03-16 19:20
1011 查看
presto/spark/mapreduce 计算引擎对比
对比的表结构为146列, 15920816 行数据,数据压缩前的大小15G。
对于执行语句的效率,单位秒
TextFile格式
Parquet格式
可看出presto优势明显,spark次之,mr 最慢。
使用列式储存后,presto提速明显。
对比的表结构为146列, 15920816 行数据,数据压缩前的大小15G。
对于执行语句的效率,单位秒
TextFile格式
执行的SQL | presto | spark | mr |
SELECT COUNT(*) FROM tmp.mb_crm1 | 5 | 9.264 | 21.711 |
SELECT sum(lately_land_btw) FROM tmp.mb_crm1; | 7 | 17.23 | 25.781 |
SELECT sum(cast(lately_land_btw as bigint)) num,mb_name FROM tmp.mb_crm1 where age>=25 group by mb_name order by num desc | 8 | 20.265 | 128.811 |
执行的SQL | presto | spark | mr |
SELECT COUNT(*) FROM tmp.mb_crm1 | 1 | 5.255 | 24.142 |
SELECT sum(lately_land_btw) FROM tmp.mb_crm1; | 1 | 3.181 | 42.893 |
SELECT sum(cast(lately_land_btw as bigint)) num,mb_name FROM tmp.mb_crm1 where age>=25 group by mb_name order by num desc | 3 | 11.486 | 66.903 |
使用列式储存后,presto提速明显。
相关文章推荐
- facebook Presto SQL分析引擎——本质上和spark无异,分解stage,task,MR计算
- Presto | 分布式大数据SQL查询引擎
- 分布式大数据sql查询引擎Presto初识
- Facebook 正式开源其大数据查询引擎 Presto
- 04大数据内存计算spark系列贴-SHARK(SQL on spark 0.x)
- Presto:Facebook的分布式SQL查询引擎
- YDB与spark SQL在百亿级数据上的性能对比测试
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控
- 查询大数据表的效率对比:Linq to SQL、Entity Framework、企业库存储过程、ADO.Net
- Presto: 可以处理PB级别数据的分布式SQL查询引擎
- spark-sql 集合hive查询数据执行日志
- SQL 计算datetime的差值,查询最近几秒有变动的数据
- YDB与spark SQL在百亿级数据上的性能对比测试
- MySQL登陆方式、数据类型、数据引擎及SQL查询语句,注意的问题.
- Presto:Facebook的分布式SQL查询引擎
- SQL 计算datetime的差值,查询最近几秒有变动的数据
- 孙元浩-基于Spark的SQL查询引擎
- 在数据表中用sql实现累计计算查询(sql server 2000)
- 数据引擎- 主流SQL计算引擎
- 一共81个,开源大数据处理工具汇总:查询引擎、流式计算、迭代计算、离线计算、键值存储、表格存储、文件存储、资源管理、日志收集系统、消息系统、分布式服务、集群管理、基础设施、搜索引擎、数据挖掘=监控