您的位置：首页 > 数据库

spark-sql 不兼容的hive语法列表

2015-12-14 15:47 645 查看

1.hive的主要特性：

spark不支持hive的桶（bucket）

2.深奥的hive特性

(1)不支持union数据类型（注意：是数据类型，不是sql语法中的union）

(2)不支持unique join

(3)不支持列统计信息收集

3.Hive Input/Output Formats

不支持hadoop文件归档(hadoop archive)

4.Hive的优化特性

(1)不支持hive的索引

(2)对于join和group by操作，不能自动的决定reduce的数量。可以通过设置SET spark.sql.shuffle.partitions=[num_tasks]来设置shuffle的并行度（对于spark-sql来说，默认是shuffle并行度是200，对于其他spark程序来说，默认是占有的executor的cpu的数量）

(3)查询元数据信息必须启动executor，而不像hive那样不需要启动计算资源

(4)不支持hive的数据倾斜（Skew data flag）标志

(5)不支持hive的STREAMTABLE join的标志

(6)对于查询结果不支持小文件合并

5.经过测试发现，spark不支持 insert overwrite/into directory 语法。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航