您的位置：首页 > 运维架构 > Apache

Hive

2020-03-15 21:50 337 查看

基于分布式存储用于查询和管理的数据仓库
海量存储数据一般都可以使用mapreduce进行计算分析，获取中间结果，又作为初始结果进行输入，最终可以得到计算的结果，缺点是效率低
实现MapReduce逻辑比较复杂
使用sql语句操作，把大量的MapReduce程序写成一个模版，封装到一个框架中，这个框架就是hive
hive创建出一个表，关联文件存储路径，放到元数据库中，在根据sql语句的类型编译出相应的MapReduce程序，就可以得到一个可以运行的程序传给执行器，就可以根据hadoop命令提交到集群中，这样就无需自己写MapReduce程序，只需要写SQL语句就可以
hive比较慢，因为底层使用的是MapReduce框架实现的
spark替代hive，spark底层是把sql语句翻译成spark

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Apache Spark MapReduce Hive

相关文章推荐

新的分享

章节导航