欢迎来到 Apache Hadoop®!
2016-01-26 21:45
417 查看
官网地址:http://hadoop.apache.org/
一 Hadoop是什么呢
二 开始
三 下载 Hadoop
四 谁使用Hadoop
Apache Hadoop 软件库是一个允许跨集群用简单的模型对于大数据的分布式处理的框架。它的目的是扩大从单一服务器到成千上万的机器,提供每个本地计算和存储。而不是依靠硬件来实现高可用性,库本身的是检测和处理在应用程序层的故障,所以提供高可用性服务除了计算机集群,每一种都可能导致故障。
该项目包括这些模块:
Hadoop Common:基础功能类库支持其他Hadoop模块
Hadoop Distributed File System: 一个分布式文件系统,它提供了高通量访问应用程序数据
Hadoop YARN:一个集群作业调度和资源管理的框架
Hadoop MapReduce:YARN-based系统并行处理大型数据集。(版本升级以YARN做资源管理器的Hadoop)
其他在Apache Hadoop相关项目包括:
Ambari™:一个基于web的工具配置,管理和监视Apache Hadoop集群,包括支持Hadoop的Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop。Ambari还提供了一个仪表板查看集群健康,如热图和能够有效看到MapReduce,Pig和Hive应用的特性来诊断性能特征以用户友好的方式。
Avro™: 数据序列化系统。
Cassandra™:一个没有单点故障可伸缩的多主机数据库。
Chukwa™: 一个管理大型分布式系统的数据采集系统。
HBase™: 一个可扩展的分布式数据库,支持大型表的结构化数据存储。
Hive™: 一个数据仓库基础设施,提供了数据总结和特别查询。
Mahout™: 一个可扩展的机器学习和数据挖掘库。
Pig™: 一个高级数据流语言和并行计算的执行框架。
Spark™: Hadoop数据的快速、通用的计算引擎。Spark提供了一个简单的和丰富的编程模型,支持广泛的应用程序,包括ETL、机器学习、流处理和图计算。
Tez™: 一个广义数据流编程框架,基于Hadoop的YARN,,它提供了一个功能强大且灵活的引擎来执行任意DAG(有向无环图)的任务来处理批处理和交互用例的数据。 Tez 正在被Hive™, Pig™ 和其他框架Hadoop生态系统,以及其他商业软件(例如ETL工具),以取代Hadoop MapReduce™作为底层执行引擎。
ZooKeeper™: 一个高性能的分布式应用程序的协调服务。
从发布页面下载 Hadoop。
在邮件列表讨论 Hadoop。
一 Hadoop是什么呢
二 开始
三 下载 Hadoop
四 谁使用Hadoop
一. Hadoop是什么呢?
Apache™ Hadoop®的项目开发开源软件可靠,可扩展,分布式计算。Apache Hadoop 软件库是一个允许跨集群用简单的模型对于大数据的分布式处理的框架。它的目的是扩大从单一服务器到成千上万的机器,提供每个本地计算和存储。而不是依靠硬件来实现高可用性,库本身的是检测和处理在应用程序层的故障,所以提供高可用性服务除了计算机集群,每一种都可能导致故障。
该项目包括这些模块:
Hadoop Common:基础功能类库支持其他Hadoop模块
Hadoop Distributed File System: 一个分布式文件系统,它提供了高通量访问应用程序数据
Hadoop YARN:一个集群作业调度和资源管理的框架
Hadoop MapReduce:YARN-based系统并行处理大型数据集。(版本升级以YARN做资源管理器的Hadoop)
其他在Apache Hadoop相关项目包括:
Ambari™:一个基于web的工具配置,管理和监视Apache Hadoop集群,包括支持Hadoop的Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop。Ambari还提供了一个仪表板查看集群健康,如热图和能够有效看到MapReduce,Pig和Hive应用的特性来诊断性能特征以用户友好的方式。
Avro™: 数据序列化系统。
Cassandra™:一个没有单点故障可伸缩的多主机数据库。
Chukwa™: 一个管理大型分布式系统的数据采集系统。
HBase™: 一个可扩展的分布式数据库,支持大型表的结构化数据存储。
Hive™: 一个数据仓库基础设施,提供了数据总结和特别查询。
Mahout™: 一个可扩展的机器学习和数据挖掘库。
Pig™: 一个高级数据流语言和并行计算的执行框架。
Spark™: Hadoop数据的快速、通用的计算引擎。Spark提供了一个简单的和丰富的编程模型,支持广泛的应用程序,包括ETL、机器学习、流处理和图计算。
Tez™: 一个广义数据流编程框架,基于Hadoop的YARN,,它提供了一个功能强大且灵活的引擎来执行任意DAG(有向无环图)的任务来处理批处理和交互用例的数据。 Tez 正在被Hive™, Pig™ 和其他框架Hadoop生态系统,以及其他商业软件(例如ETL工具),以取代Hadoop MapReduce™作为底层执行引擎。
ZooKeeper™: 一个高性能的分布式应用程序的协调服务。
二. 开始
了解 Hadoop 通过阅读文档。从发布页面下载 Hadoop。
在邮件列表讨论 Hadoop。
三. 下载 Hadoop
Hadoop 请头版本下载页面下载 Apache Hadoop。四. 谁使用Hadoop?
各种各样的公司和组织为了研究和生产使用 Hadoop。鼓励用户自己添加到 Hadoop Powered By wiki页面。相关文章推荐
- apache工作模式详解
- org.apache.hadoop.hdfs.server.datanode.DataNode: Invalid dfs.datanode.data.dir /chunk : java.io.Fil
- 【Apache Mina2.0开发之一】搭建Apache Mina框架并实现Server与Client端的简单消息传递!
- [置顶] apache+linux+php安装
- apache-common-pool2(配置参数详解,以及资源回收,从池中获取资源,将资源返还给池 逻辑解析)
- apache commons io 邮箱列表
- Apache POI处理excel文档
- apache配置远程代理及缓存
- Exception in thread "main" java.lang.UnsupportedClassVersionError: org/apache/ma ven/cli/Maven
- window上连接集群跑hadoop问题之java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.
- LAMP环境配置-Apache的深入理解
- 解决编译apache出现的问题:configure: error: APR not found . Please read the documentation
- Subversion代码提交中的org.apache.subversion.javahl.ClientException: svn: E200007: Commit failed异常解决
- ClassNotFoundException: org.apache.jsp.index_jsp
- [Apache Kafka]Kafka集成
- Apache 配置详解
- windows 本地启动Apache2失败
- apache与redmine整合-使用passenger
- Apache Maven 入门篇 ( 上 )
- Apache Maven 入门篇(下)