您的位置：首页 > 职场人生

大数据面试题知识点分析（六）

2018-01-25 15:30 316 查看

为了保证效率和质量，每篇文章发布6个知识点，由简单及难，我们继续HIVE：

1）hive 支持 not in 吗？

不支持，可以用left join 实现此功能。

2）Hive 有哪些方式保存元数据，各有哪些优缺点？

1.存储于内存数据库derby，此方法只能开启一个hive客户端，不推荐使用。

2.存储于mysql数据库，可以多客户端连接，推荐使用。

分为本地mysql数据库，远程mysql数据库，但是本地的mysql数据用的比较多，因为本地读写速度都比较快。

3）hive
如何优化？

1.join优化，尽量将小表放在join的左边，如果一个表很小可以采用mapjoin；

2.排序优化，order by 一个reduce效率低，distirbute by +sort by 也可以实现全局排序；

3.使用分区，查询时可减少数据的检索，从而节省时间。

hive最终都会转化为mapreduce的job来运行，要想hive调优，实际上就是mapreduce调优，可以有下面几个方面的调优：解决收据倾斜问题，减少job数量，设置合理的map和reduce个数，对小文件进行合并，优化时把我整体，单个task最优不如整体最优，按照一定规则分区。

4）hive
如何权限控制？

Hive的权限需要在hive-site.xml文件中设置才会起作用，配置默认的是false。需要把hive.security.authorization.enabled设置为true，并对不同的用户设置不同的权限，例如select ,drop等的操作。

5）hive
能像关系数据库那样，建多个库吗？

可以建立多个库，多库多表都支持。

6）hive
中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？

TextFile：默认格式，数据不做压缩，磁盘开销大，数据解析开销大。

SequenceFile：Hadoop API提供的一种二进制文件支持，使用方便，可分割，可压缩，支持三种压缩，NONE，RECORD，BLOCK。

RCFILE：是一种行列存储相结合的方式。首先，将数据按行分块，保证同一个record在同一个块上，避免读一个记录读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。数据加载的时候性能消耗大，但具有较好的压缩比和查询响应。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据面试题 Hive

相关文章推荐

新的分享

章节导航

大数据面试题知识点分析（六）

为了保证效率和质量，每篇文章发布6个知识点，由简单及难，我们继续HIVE：

1）hive 支持 not in 吗？

2）Hive 有哪些方式保存元数据，各有哪些优缺点？

3）hive如何优化？

4）hive如何权限控制？

5）hive能像关系数据库那样，建多个库吗？

6）hive中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？

3）hive
如何优化？

4）hive
如何权限控制？

5）hive
能像关系数据库那样，建多个库吗？

6）hive
中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？