您的位置:首页 > 数据库

spark-sql 不兼容的hive语法列表

2015-12-14 15:47 645 查看
1.hive的主要特性:

spark不支持hive的桶(bucket)

2.深奥的hive特性

(1)不支持union数据类型(注意:是数据类型,不是sql语法中的union)

(2)不支持unique join

(3)不支持列统计信息收集

3.Hive Input/Output Formats

不支持hadoop文件归档(hadoop archive)

4.Hive的优化特性

(1)不支持hive的索引

(2)对于join和group by操作,不能自动的决定reduce的数量。可以通过设置SET spark.sql.shuffle.partitions=[num_tasks]来设置shuffle的并行度(对于spark-sql来说,默认是shuffle并行度是200,对于其他spark程序来说,默认是占有的executor的cpu的数量)

(3)查询元数据信息必须启动executor,而不像hive那样不需要启动计算资源

(4)不支持hive的数据倾斜(Skew data flag)标志

(5)不支持hive的STREAMTABLE join的标志

(6)对于查询结果不支持小文件合并

5.经过测试发现,spark不支持 insert overwrite/into directory 语法。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: