您的位置:首页 > 运维架构

Hadoop分布式文件存储系统

2013-07-15 11:38 330 查看
Hadoop分布式文件存储系统

Posted by Y.D. in June 7th 2008

 
http://hadoop.apache.org/core/docs/current/index.html
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等

Yahoo仿照Google文件系统开源的分布式文件存储系统

支持MapReduce,从Nutch 独立开源出来的存储部分

//适合>100台的文件系统,如果节点少的读取测试效率低下无法体现其优势

该项目的设计目标是10,000节点,已经有大于1,000节点的项目样例

HDFS三个重要角色:NameNode、DataNode和Client

特点和应用

可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。

经济:框架可以运行在任何普通的PC上。

可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。

高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。

Yahoo’s Doug Cutting on MapReduce and the Future of Hadoop

Hadoop中的集群配置和使用技巧分布式计算开源框架Hadoop介绍

分布式计算开源框架Hadoop介绍――分布式计算开源框架Hadoop入门实践(一)

Hadoop中的集群配置和使用技巧――分布式计算开源框架Hadoop入门实践(二)

Hadoop基本流程与应用开发――分布式计算开源框架Hadoop入门实践(三)

All content and news on InfoQ about Hadoopref link
http://hadoop.apache.org/core/docs/current/quickstart.html Hadoop Quickstart
http://www.mengyan.org/blog/archives/2006/11/15/138.html Map Reduce - the Free Lunch is not over?

BigTable论文 Googel Cluster,分布式文件系统 GFS,分布式计算环境 - MapReduce,分布式结构化存储 - BigTable,Lock Service
http://huang.yunsong.net/2006/getting_started_with_hadoop_part1.html Getting Started with Hadoop, Part 1

本文的目标是描述如何安装和使用 Hadoop 0.9.2,不涉及如何使用 Hadoop 框架来开发分布式程序
http://hadoop.apache.org/core/docs/current/quickstart.html Hadoop Quickstart
http://www.cppblog.com/javenstudio/archive/2008/02/22/43076.html Annotated Hadoop (源码剖析)

Annotated Hadoop: 第一节 Hadoop是什么 http://www.cppblog.com/javenstudio/articles/43072.html
Annotated Hadoop: 第二节 MapReduce框架结构 http://www.cppblog.com/javenstudio/articles/43073.html
Annotated Hadoop: 第三节 MapReduce工作原理 http://www.cppblog.com/javenstudio/articles/43075.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐