spark-sql 不兼容的hive语法列表
2015-12-14 15:47
645 查看
1.hive的主要特性:
spark不支持hive的桶(bucket)
2.深奥的hive特性
(1)不支持union数据类型(注意:是数据类型,不是sql语法中的union)
(2)不支持unique join
(3)不支持列统计信息收集
3.Hive Input/Output Formats
不支持hadoop文件归档(hadoop archive)
4.Hive的优化特性
(1)不支持hive的索引
(2)对于join和group by操作,不能自动的决定reduce的数量。可以通过设置SET spark.sql.shuffle.partitions=[num_tasks]来设置shuffle的并行度(对于spark-sql来说,默认是shuffle并行度是200,对于其他spark程序来说,默认是占有的executor的cpu的数量)
(3)查询元数据信息必须启动executor,而不像hive那样不需要启动计算资源
(4)不支持hive的数据倾斜(Skew data flag)标志
(5)不支持hive的STREAMTABLE join的标志
(6)对于查询结果不支持小文件合并
5.经过测试发现,spark不支持 insert overwrite/into directory 语法。
spark不支持hive的桶(bucket)
2.深奥的hive特性
(1)不支持union数据类型(注意:是数据类型,不是sql语法中的union)
(2)不支持unique join
(3)不支持列统计信息收集
3.Hive Input/Output Formats
不支持hadoop文件归档(hadoop archive)
4.Hive的优化特性
(1)不支持hive的索引
(2)对于join和group by操作,不能自动的决定reduce的数量。可以通过设置SET spark.sql.shuffle.partitions=[num_tasks]来设置shuffle的并行度(对于spark-sql来说,默认是shuffle并行度是200,对于其他spark程序来说,默认是占有的executor的cpu的数量)
(3)查询元数据信息必须启动executor,而不像hive那样不需要启动计算资源
(4)不支持hive的数据倾斜(Skew data flag)标志
(5)不支持hive的STREAMTABLE join的标志
(6)对于查询结果不支持小文件合并
5.经过测试发现,spark不支持 insert overwrite/into directory 语法。
相关文章推荐
- 过滤器里设置编码,防止提交的数据不能写入数据库
- Oracle使用记录
- SQL中ISNULL用法示例
- Mysql下的数据库备份
- spark 的sql解决方案
- oracle新增(ibatis)
- SQL语句case when外用sum与count的区别
- mysql--windows忘记密码
- CentOS7.1安装Oracle 12.1客户端以及cx_Oracle
- 问题:oracle 两个表之间的修改;结果:ORACLE 两个表之间更新的实现
- SQL Server2012中如何通过bak文件还原SQL Server2012数据库
- oracle 对对表匹配的进行修改匹配不上的可以进行新增 (MERGE INTO)
- Redis
- [How to]集成SQLite3
- sql语句执行插入后返回ID
- 找到一篇比较全面的解决mysql最大连接数Too many connections问题的帖子
- keepalived+Mysql主从配置实验
- PostgreSQL Type的创建与Type在函数中的使用
- 关于Oracle有两个或者多个实例时,用SID来区分目前oralce使用的是哪个实例。
- oracle查看对象信息