您的位置:首页 > 运维架构 > Apache

Hive

2020-03-15 21:50 337 查看

3 月,跳不动了?>>>

  • 基于分布式存储用于查询和管理的数据仓库
  • 海量存储数据一般都可以使用mapreduce进行计算分析,获取中间结果,又作为初始结果进行输入,最终可以得到计算的结果,缺点是效率低
  • 实现MapReduce逻辑比较复杂
  • 使用sql语句操作,把大量的MapReduce程序写成一个模版,封装到一个框架中,这个框架就是hive
  • hive创建出一个表,关联文件存储路径,放到元数据库中,在根据sql语句的类型编译出相应的MapReduce程序,就可以得到一个可以运行的程序传给执行器,就可以根据hadoop命令提交到集群中,这样就无需自己写MapReduce程序,只需要写SQL语句就可以
  • hive比较慢,因为底层使用的是MapReduce框架实现的
  • spark替代hive,spark底层是把sql语句翻译成spark

  • hive结构

  • hive不支持单条操作,因为hdfs不支持
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息