SparkSQL的前世今生
2017-12-09 20:34
204 查看
SparkSQL的前世今生
标签(空格分隔): spark学习
HiveSQL
早期都是使用hiveSQL,hiveSQL的执行流程:1. 语法解析
2. 生成逻辑计划
3. 优化
4. 生成物理计划
通过以上流程将hiveSQL语句转换成mapReduce运行在hadoop上的。
技术革新中…
SparkShark
套用hiveSQL的执行流程,只不过将SQL语句装换成RDD运行。shark(同SparkSQL)1. 语法解析
2. 生成逻辑计划
3. 优化
4. 生成物理计划(Spark)
对于Spark产生的缺点:
* Hive升级了,shark这儿也要被迫的升级
* 自己升级的时候,也要考虑到Hive的版本。
技术革新中…
SparkSQl
大概在2014年7月份时,Spark放弃Shark,开发新的SparkSQL,而shark成为Hive的内容。SparkSQl实现的效果和shark相类似,只不过不在依赖Hive。
版本的更新和发展
Spark 0.xx一直在使用shark
Spark 1.0.2
废弃了Shark 出来了一个SparkSQL(在测试阶段)作为apache的顶级项目
Spark 1.3.0
SparkSQL变成正式版本了。(DataFrame)
Spark 1.5.0
提出了钨丝计划(重点优化SparkSQL)
Spark 1.6.0
提出来一个DataSet (只是在测试阶段)
Spark2.0.0
**DataSet 变为了正式的 功能(还有很多对于SparkSQL的优化)
Structured Streaming (测试阶段)**
Spark2.2.0
Structured Streaming (正式版本)
相关文章推荐
- SparkSQL On Yarn with Hive,操作和访问Hive表
- sparkSQL、dataframe
- Spark SQL利器:cacheTable/uncacheTable【转】
- 9. Spark SQL:JDBC数据源实战
- SCALAsparkSQL
- 9. Spark SQL:JDBC数据源实战
- 腾讯金融级分布式数据库TDSQL的前世今生
- YDB与spark SQL在百亿级数据上的性能对比测试
- spark-sparkSQL
- Astro —— 华为开源的 SparkSQL on HBase
- Spark SQL在超大集群上的自适应执行实践
- 12.Spark SQL:开窗函数以及top3销售额统计案例实战
- 12.Spark SQL:开窗函数以及top3销售额统计案例实战
- Spark SQL集合数据类型array\map的取值方式
- SparkSQL操作Hive Table(enableHiveSupport())
- spark sql连接hive时找不到驱动
- SparkSQL – Join分析
- spark-sql
- 记录oracle转sparksql的问题
- SparkSQL中SQL、DataFrame和DataSet方式的静态类型安全和运行时类型安全