大数据面试题知识点分析(六)
2018-01-25 15:30
316 查看
为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HIVE:
1)hive 支持 not in 吗?
不支持,可以用left join 实现此功能。2)Hive 有哪些方式保存元数据,各有哪些优缺点?
1.存储于内存数据库derby,此方法只能开启一个hive客户端,不推荐使用。2.存储于mysql数据库,可以多客户端连接,推荐使用。
分为本地mysql数据库,远程mysql数据库,但是本地的mysql数据用的比较多,因为本地读写速度都比较快。
3)hive
如何优化?
1.join优化,尽量将小表放在join的左边,如果一个表很小可以采用mapjoin;2.排序优化,order by 一个reduce效率低,distirbute by +sort by 也可以实现全局排序;
3.使用分区,查询时可减少数据的检索,从而节省时间。
hive最终都会转化为mapreduce的job来运行,要想hive调优,实际上就是mapreduce调优,可以有下面几个方面的调优:解决收据倾斜问题,减少job数量,设置合理的map和reduce个数,对小文件进行合并,优化时把我整体,单个task最优不如整体最优,按照一定规则分区。
4)hive
如何权限控制?
Hive的权限需要在hive-site.xml文件中设置才会起作用,配置默认的是false。需要把hive.security.authorization.enabled设置为true,并对不同的用户设置不同的权限,例如select ,drop等的操作。5)hive
能像关系数据库那样,建多个库吗?
可以建立多个库,多库多表都支持。6)hive
中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别?
TextFile:默认格式,数据不做压缩,磁盘开销大,数据解析开销大。SequenceFile:Hadoop API提供的一种二进制文件支持,使用方便,可分割,可压缩,支持三种压缩,NONE,RECORD,BLOCK。
RCFILE:是一种行列存储相结合的方式。首先,将数据按行分块,保证同一个record在同一个块上,避免读一个记录读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。数据加载的时候性能消耗大,但具有较好的压缩比和查询响应。
相关文章推荐
- 大数据面试题知识点分析(三)
- 大数据面试题知识点分析(九)
- 大数据面试知识点分析(一)
- 大数据面试题知识点分析(五)
- 大数据面试题知识点分析(七)
- 大数据面试题知识点分析(四)
- 2017校招数据分析岗笔试/面试知识点
- 2017校招数据分析岗笔试、面试知识点大总结
- 大数据面试题知识点分析(八)
- 大数据面试题知识点分析(二)
- 大数据Hive 面试以及知识点
- 面试知识点总结之数据库
- 《面试》 --阿里巴巴数据分析岗面试编程题解析
- 【数据结构——树】二叉树面试相关知识点总结(二)
- 互联网公司数据分析/挖掘面试机器学习面到的题目
- 【数据分析知识点】detailed table of contents
- Leetcode Database using MySQL from the EASY ones 准备数据分析面试SQL试题
- web前端面试-------javaScript基础知识点之数据类型
- (原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 神经网络分析算法原理篇)
- 大数据面试宝典(分析题)