hadoop整体体系规划总结
2012-08-06 09:45
141 查看
关于hadoop整体规划,根据我使用的经验来看,分成5个部分:
第一个部分hadoop部署与运维
第二个部分hadoop的文件系统
第三个部分hadoop的MR计算框架
第四个部分hadoop的第三方生态圈
第五个部分调度程序
第一部分有分为以下几个点:
操作系统安装、机器选型、hadoop的namenode部署、datanode部署、JVM选型与调试、hadoop运维(这包括容错、备份、恢复、增删节点等很多方面)、分布式部署、监控、调优(包括CPU、内存、IO、网络)、hadoop架构分布(namenode、jobtracker、datanode、tasktracker、SecondaryNameNode分布)、最后一点就是namenode的单点故障解决方案。
第二部分分为以下几个点:
简单的文件系统操作、权限管理、HDFS的参数配置与调试、压缩模式、序列化、HDFS的运行机制、文件系统原理、HDFS接口、文件存储格式。
第三部分分为以下几个点:
MR本身运行机制、调度器配置与调优、调度器原理、MR开发环境搭建并编写MR程序、MR的参数配置与调试(本地调试、远程调试、HPROF分析)、MR相关算法。
第四部分分为以下几个点:
hive、zookeeper、hbase、pig、sqoop、mahout等使用与应用。
第五个部分简单地说就是如何编写调度程序(用java、python、shell、crontab等都行)
如果每个点再细分,其实都是一块工作量很大的部分,而且各个部分其实又是紧密结合在一起的。
以上就是我使用hadoop体系以来的总结,根据这些方面,去招聘相关职位的工程师,互相配合。如有错误,请指正。
第一个部分hadoop部署与运维
第二个部分hadoop的文件系统
第三个部分hadoop的MR计算框架
第四个部分hadoop的第三方生态圈
第五个部分调度程序
第一部分有分为以下几个点:
操作系统安装、机器选型、hadoop的namenode部署、datanode部署、JVM选型与调试、hadoop运维(这包括容错、备份、恢复、增删节点等很多方面)、分布式部署、监控、调优(包括CPU、内存、IO、网络)、hadoop架构分布(namenode、jobtracker、datanode、tasktracker、SecondaryNameNode分布)、最后一点就是namenode的单点故障解决方案。
第二部分分为以下几个点:
简单的文件系统操作、权限管理、HDFS的参数配置与调试、压缩模式、序列化、HDFS的运行机制、文件系统原理、HDFS接口、文件存储格式。
第三部分分为以下几个点:
MR本身运行机制、调度器配置与调优、调度器原理、MR开发环境搭建并编写MR程序、MR的参数配置与调试(本地调试、远程调试、HPROF分析)、MR相关算法。
第四部分分为以下几个点:
hive、zookeeper、hbase、pig、sqoop、mahout等使用与应用。
第五个部分简单地说就是如何编写调度程序(用java、python、shell、crontab等都行)
如果每个点再细分,其实都是一块工作量很大的部分,而且各个部分其实又是紧密结合在一起的。
以上就是我使用hadoop体系以来的总结,根据这些方面,去招聘相关职位的工程师,互相配合。如有错误,请指正。
相关文章推荐
- 设计模式总结篇 - 设计模式整体规划
- Hadoop总结(1)-体系
- Hadoop初学指南(3)--HDFS的体系结构
- web前端知识体系总结
- Hadoop常见问题总结
- hadoop之MapReduce调用R的一次失败的总结~(续一)
- 动态规划总结
- Hadoop性能调优总结
- Java集合框架的知识总结(1) 说明:先从整体介绍了Java集合框架包含的接口和类,然后总结了集合框架中的一些基本知识和关键点,并结合实例进行简单分析。 1、综述 所有集合类
- Hadoop 常见问题总结
- hadoop配置运行错误总结(2)
- API相关工作的个人总结_整体介绍
- Hadoop学习总结之二:HDFS读写过程解析
- Hadoop学习总结之二:HDFS读写过程解析
- hadoop的两大核心之一:HDFS总结
- iOS开发 之 App Extension 整体总结
- hadoop完全分布式过程中遇到的一些问题和总结
- 面向服务体系架构的业务规划和建模方法之六-SOA项目的导入策略 推荐
- 我的“View的事件体系”知识点总结
- Hadoop集群配置(最全面总结)