大数据学习笔记3--HDFS扩展和mapreduce工作过程
2015-04-11 20:52
696 查看
HDFS配置:
客户端中的配置参数可以覆盖服务端的参数。
例如:副本数,切块大小
HDFS文件存储:
服务端存储block的实际大小,但是不适合存储小文件,小文件会占用namenode的元数据空间。
对于小文件数据的优化,可以在上传之前先合并再上传。
例如:压缩、文本文件合并
HDFS扩展:
hdfs支持rest API,与平台无关
jetty 容器
hdfs支持rest command
分布式任务传统方式:
任务资源分发 jar配置文件。。。硬件资源的分配
任务在各个任务节点上设置运行环境,启动执行
监视各个阶段任务执行状态
任务失败,重试
中间结果调度,汇总
hadoop对分布式抽象
yarn:资源调度器,负责硬件资源调度、任务分配、环境配置、启动任务。
mapredce:分布式运算框架,监视任务执行、失败重试、中间结果调度。
spark、storm:实时计算
mapreduce
mapper:
一次读取一行数据
输出一组keyValue
mapper个数等于block块数
shuffle:
合并数据
reduce:
业务逻辑处理
hadoop序列化机制:
hadoop中目前的序列化机制是writable,后续版本中会替换为avro
mapreduce任务提交方式
jar包,hadoop jar wordcount.jar Count
mr会被提交到集群,属于集群的运行方式
local模式
在eclipse里直接运行main方法
eclipse hadoop 插件
mapreduce任务执行流程
RunJar:客户端
ResourceManager:资源管理器,老大
NodeManager:执行任务管理器
MrAppMaste:任务启动、监控、失败重试
yarnchild:mapper和reducer
RunJar向ResourceManager申请提交一个job
ResourceManager返回jobid和一个job的提交的路径(hdfs://)
RunJar提交job任务的相关文件(jar,配置job.xml,split.xml)到hdfs
RunJar上报给ResourceManager任务已经提交完成
ResourceManager分配资源,并将任务任务写入到任务队列中
NodeManager主动向ResourceManager领取任务
NodeManager在一个容器中启动MrAppMaster
MrAppMaster向ResourceManager注册
ResourceManager向MrAppMaster返回资源信息
MrAppMaster启动mapper(mapper reducer详细流程。。。)
MrAppMaster启动reducer
任务执行完成,向ResourceManager注销资源
客户端中的配置参数可以覆盖服务端的参数。
例如:副本数,切块大小
HDFS文件存储:
服务端存储block的实际大小,但是不适合存储小文件,小文件会占用namenode的元数据空间。
对于小文件数据的优化,可以在上传之前先合并再上传。
例如:压缩、文本文件合并
HDFS扩展:
hdfs支持rest API,与平台无关
jetty 容器
hdfs支持rest command
分布式任务传统方式:
任务资源分发 jar配置文件。。。硬件资源的分配
任务在各个任务节点上设置运行环境,启动执行
监视各个阶段任务执行状态
任务失败,重试
中间结果调度,汇总
hadoop对分布式抽象
yarn:资源调度器,负责硬件资源调度、任务分配、环境配置、启动任务。
mapredce:分布式运算框架,监视任务执行、失败重试、中间结果调度。
spark、storm:实时计算
mapreduce
mapper:
一次读取一行数据
输出一组keyValue
mapper个数等于block块数
shuffle:
合并数据
reduce:
业务逻辑处理
hadoop序列化机制:
hadoop中目前的序列化机制是writable,后续版本中会替换为avro
mapreduce任务提交方式
jar包,hadoop jar wordcount.jar Count
mr会被提交到集群,属于集群的运行方式
local模式
在eclipse里直接运行main方法
eclipse hadoop 插件
mapreduce任务执行流程
RunJar:客户端
ResourceManager:资源管理器,老大
NodeManager:执行任务管理器
MrAppMaste:任务启动、监控、失败重试
yarnchild:mapper和reducer
RunJar向ResourceManager申请提交一个job
ResourceManager返回jobid和一个job的提交的路径(hdfs://)
RunJar提交job任务的相关文件(jar,配置job.xml,split.xml)到hdfs
RunJar上报给ResourceManager任务已经提交完成
ResourceManager分配资源,并将任务任务写入到任务队列中
NodeManager主动向ResourceManager领取任务
NodeManager在一个容器中启动MrAppMaster
MrAppMaster向ResourceManager注册
ResourceManager向MrAppMaster返回资源信息
MrAppMaster启动mapper(mapper reducer详细流程。。。)
MrAppMaster启动reducer
任务执行完成,向ResourceManager注销资源
相关文章推荐
- 云计算学习笔记005---Hadoop HDFS和MapReduce 架构浅析
- Hadoop学习笔记(一):MapReduce工作机制
- Hadoop-hdfs和mapreduce学习笔记二
- C#开发学习笔记:C#通过存储过程创建数据表
- 大数据学习笔记2-MapReduce
- 文件数据云计算学习笔记---Hadoop HDFS和MapReduce 架构浅析
- Java学习笔记(一)java运行过程及基本数据类型
- MyCat 学习笔记 第十三篇.数据分片 之 通过HINT执行存储过程
- web前台工作笔记(时间戳、js中clone的使用、js中动态填充数据注意事项、前台查错方法的学习)
- <hadoop学习历程>--笔记心得3-HDFS数据管理与容错
- Hadoop学习笔记(5) MapReduce工作机制
- TCP/IP网络编程 学习笔记_14 --多种I/O函数(数据传输扩展)
- Entity Framework 学习笔记(二)之数据模型 Model 使用过程
- Hadoop学习笔记——1.java读取Oracle中表的数据,创建新文件写入Hdfs
- Hadoop学习笔记一:MapReduce的工作机制
- PMBOK 学习笔记 项目管理五大过程组主要工作
- 【Spring学习笔记-MVC-3.1】SpringMVC返回Json数据-方式1-扩展
- hadoop学习笔记 Hadoop工作过程(待完善)
- 嵌入式C学习笔记(二) 编译器-GCC的工作过程
- 大数据学习笔记——hadoop1.2.1 MapReduce简介