大数据开发基础(上)学习笔记
2016-08-01 08:55
288 查看
1、HDFS简介
Hadoop1.0与Hadoop2.0结构图Hadoop 2.0的主要改进有:
1、通过YARN实现资源的调度与管理,从而使Hadoop 2.0可以运行更多种类的计算框架,如Spark等。
2、实现了NameNode的HA方案,即同时有2个NameNode(一个Active另一个Standby),如果ActiveNameNode挂掉的话,另一个NameNode会转入Active状态提供服务,保证了整个集群的高可用。
3、实现了HDFS federation,由于元数据放在NameNode的内存当中,内存限制了整个集群的规模,通过HDFS federation使多个NameNode组成一个联邦共同管理DataNode,这样就可以扩大集群规模。
4、Hadoop RPC序列化扩展性好,通过将数据类型模块从RPC中独立出来,成为一个独立的可插拔模块。
HDFS是一个分布式文件系统,具有高容错的特点。它可以部署在廉价的通用硬件上,提供高吞吐率的数据访问,适合需要处理海量数据集的应用程序。
主要特点:
1、支持超大文件:支持TB级的数据文件。
2、检测和快速应对硬件故障:HDFS的检测和冗余机制很好克服了大量通用硬件平台上的硬件故障问题。
3、高吞吐量:批量处理数据。
4、简化一致性模型:一次写入多次读取的文件处理模型有利于提高吞吐量。
HDFS不适合的场景:低延迟数据访问;大量的小文件;多用户写入文件、修改文件。
HDFS读写流程
2、YARN原理介绍
产生背景:Hadoop 1.0的弊端包括:
1、扩展性差
2、可靠性差
3、资源利用率低
4、无法支持多种计算框架
YARN基本架构
YARN工作流程
3、MapReduce原理介绍
MapReduce是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法,是Hadoop面向大数据并行处理的计算模型、框架和平台。MapReduce执行流包括input、map、shuffle、reduce和output共5个过程
YARN框架下的Mapreduce工作流程:
shuffle及排序:
相关文章推荐
- Unity开发基础——基本数据类型学习笔记
- 嵌入式开发之C基础学习笔记03--基本数据类型,操作符,修饰符等基本概念
- ASP.Net MVC开发基础学习笔记(9):查看详情、编辑数据、删除数据
- IOS开发基础教程学习笔记4 在storyboard的场景之间传递数据
- ASP.Net MVC开发基础学习笔记(8):新建数据页面
- 蓝鸥Unity开发基础——基本数据类型学习笔记
- 大数据开发基础上学习笔记
- ASP.Net MVC开发基础学习笔记(8):新建数据页面
- ASP.Net MVC开发基础学习笔记(7):数据查询页面
- Asp.net控件开发学习笔记(一)-控件开发基础
- Asp.net控件开发学习笔记(六)----数据回传
- Android Map开发基础知识学习笔记
- Silverlight4深蓝游戏开发学习笔记(一) 基础动画方式
- Android Map开发基础知识学习笔记
- Android Map开发基础知识学习笔记
- Android Map开发基础知识学习笔记
- Android Map开发基础知识学习笔记(转)
- ArcGIS客户端开发学习笔记(五)——ArcGIS REST API基础
- 设计模式学习笔记5——设计模式基础4--常量数据管理器
- Java基础学习笔记(一)基本数据类型