以解决问题的角度分析Hadoop生态组件发展
2018-02-28 11:13
429 查看
做了一段时间的Hadoop的平台,这里对自己学习的生态组件做一个小结: 1)传统数据存储遇到困难,大数据无法存储,需要分布式存储系统,产生了HDFS。 2)解决了大数据存储,但是分布式情况下如何运算,引出了MapReduce分布式计算框架。 3)Hadoop 1.0时,MapReduce计算框架任务太重,2.0后将管理任务抽出,产生了YARN资源管理框架。 4)为了解决写JAVA程序来编写MapReduce计算的困难,可以通过Pig来编写程序。 5)大数据下的NoSQL新型数据库:HBase 大数据下的分布式仓库:Hive 6)为了解决从传统数据库或数据源将数据采集到大数据平台的组件(Hive,HBase等),产生了Sqoop组件,用于数据双向互导。 7)基于Apache 社区的Hadoop,安装部署、配置都非常复杂困难,HDP开发了Ambari专注于大数据的安装部署及监控运维。 8)大数据需要使用大集群,集群的协调管理复杂,产生了Zookeeper专注于协调集群管理。 9) 因为MapReduce分布式计算框架的性能不高效,所以产生了Spark生态组件用于提供高效的分布式计算,同时解决以前要装大量组件来满足不同业务应用的问题。Spark生态目的是一站式解决计算、查询、流计算、图计算、挖掘等应用问题。 10)为了处理流数据,产生了流数据采集的组件(Flume,Kafak)、流计算框架(Storm, Spark Streaming)。 11)为了解决海量数据的检索问题,产生了ELK(Elastic Search 相关组件)的数据检索解决方案。 12)为了解决海量数据的交互分析,查询等问题,产生了很多专注这方面的组件:HAWQ、Presto、Impala等。 13)为了端到端的提供流程管控或使用方法,产生了HUE,提供页面化的流程管控。 14)为了分析定位问题,监控管理,需要有日志的管理,分析组件,例如:Log Search,Solr等组件。 15)细分还有很多业务场景,例如分析师需要进行关联查询分析,使用HIVE数据仓库效率低,产生了Kylin专注分析的组件。
相关文章推荐
- Hadoop分析日志实例的详细步骤及出现的问题分析和解决
- window2008 64位系统没有office组件问题分析及解决
- hadoop 0.20 jobtracker leasechecker 线程溢出问题分析与解决
- 解决检索 COM 类工厂中 CLSID 为 {96749377-3391-11D2-9EE3-00C04F797396} 的组件失败,异常0x80040154,没有注册类问题分析和解决办法
- window2008 64位系统没有office组件问题分析及解决
- 构、搜索、性能等技术角度分析了电子商务网站重点要解决的几个问题,并给出一些建议和方案
- Hadoop HDFS 文件访问权限问题导致Java Web 上传文件到Hadoop失败的原因分析及解决方法
- window2008 64位系统没有office组件问题分析及解决
- 解决 分析 window server2008 下找不到 word组件的问题
- window2008 64位系统没有office组件问题分析及解决
- 基于WEB服务器导致消息中心各组件之间无法正常工作的问题分析与解决
- leetcode 453. Minimum Moves to Equal Array Elements 换一个角度分析解决问题 + 寻找最小值
- 调用系统UIImagePickerController录像并保存到指定的文件夹,解决保存后播放视频角度偏移90度问题
- Struts Invalid path was requested 问题分析及解决方法
- 解决ionic 上拉加载组件 ion-infinite-scroll自动调用多次的问题或禁止第一次加载
- Android 关于“NetworkOnMainThreadException”问题的原因分析及解决办法
- 解决hadoop集群中datanode启动后自动关闭的问题
- SQLServer乱码问题的分析及解决方法(中文字符被存入数据库后,显示为乱码)
- VS2008中关于“加载安装组件时遇到问题。取消安装”的解决
- Ambari Server网口带宽占用率很高问题的分析和解决办法