您的位置:首页 > 运维架构

以解决问题的角度分析Hadoop生态组件发展

2018-02-28 11:13 429 查看
做了一段时间的Hadoop的平台,这里对自己学习的生态组件做一个小结: 1)传统数据存储遇到困难,大数据无法存储,需要分布式存储系统,产生了HDFS。 2)解决了大数据存储,但是分布式情况下如何运算,引出了MapReduce分布式计算框架。 3)Hadoop 1.0时,MapReduce计算框架任务太重,2.0后将管理任务抽出,产生了YARN资源管理框架。 4)为了解决写JAVA程序来编写MapReduce计算的困难,可以通过Pig来编写程序。 5)大数据下的NoSQL新型数据库:HBase 大数据下的分布式仓库:Hive 6)为了解决从传统数据库或数据源将数据采集到大数据平台的组件(Hive,HBase等),产生了Sqoop组件,用于数据双向互导。 7)基于Apache 社区的Hadoop,安装部署、配置都非常复杂困难,HDP开发了Ambari专注于大数据的安装部署及监控运维。 8)大数据需要使用大集群,集群的协调管理复杂,产生了Zookeeper专注于协调集群管理。 9) 因为MapReduce分布式计算框架的性能不高效,所以产生了Spark生态组件用于提供高效的分布式计算,同时解决以前要装大量组件来满足不同业务应用的问题。Spark生态目的是一站式解决计算、查询、流计算、图计算、挖掘等应用问题。 10)为了处理流数据,产生了流数据采集的组件(Flume,Kafak)、流计算框架(Storm, Spark Streaming)。 11)为了解决海量数据的检索问题,产生了ELK(Elastic Search 相关组件)的数据检索解决方案。 12)为了解决海量数据的交互分析,查询等问题,产生了很多专注这方面的组件:HAWQ、Presto、Impala等。 13)为了端到端的提供流程管控或使用方法,产生了HUE,提供页面化的流程管控。 14)为了分析定位问题,监控管理,需要有日志的管理,分析组件,例如:Log Search,Solr等组件。 15)细分还有很多业务场景,例如分析师需要进行关联查询分析,使用HIVE数据仓库效率低,产生了Kylin专注分析的组件。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐