大数据1-淘宝Hadoop集群的概况(转)
2017-11-12 14:33
190 查看
国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25,000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。
淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系统日志以及爬虫数据,截止2011年9月,数量总量已经超过17个PB,每天净增长20T左右。每天在Hadoop集群运行的MapReduce任务有超过4万(有时会超过6万),其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行,3-4个小时内全部完成。每天读数据在2PB左右,写数据在1PB左右。
Hadoop包括两类节点Master和Slave节点,
Master节点包括Jobtracker,Namenode, SecondName, Standby,
硬件配置:16CPU*4核,96G内存。
Slave节点主要是TaskTracker和DataNode,
硬件配置存在一定的差别:8CPU*4核-16CPU*4核,16G-24G内存
(注:通常是一个slave节点同时是TaskTracker和DataNode,目的是提高数据本地性data locality)。
每个slave节点会划分成12~24个slots。整个集群约34,916个slots,其中Map slots是19,643个,Reduce slots是15,273个
所有作业会进行分成多个Group,按照部门或小组划分,总共有38个Group。整个集群的资源也是按各个Group进行划分,定义每个Group的最大并发任务数,Map slots与Reduce slots的使用上限。每个作业只能使用自己组的slots资源。
淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系统日志以及爬虫数据,截止2011年9月,数量总量已经超过17个PB,每天净增长20T左右。每天在Hadoop集群运行的MapReduce任务有超过4万(有时会超过6万),其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行,3-4个小时内全部完成。每天读数据在2PB左右,写数据在1PB左右。
Hadoop包括两类节点Master和Slave节点,
Master节点包括Jobtracker,Namenode, SecondName, Standby,
硬件配置:16CPU*4核,96G内存。
Slave节点主要是TaskTracker和DataNode,
硬件配置存在一定的差别:8CPU*4核-16CPU*4核,16G-24G内存
(注:通常是一个slave节点同时是TaskTracker和DataNode,目的是提高数据本地性data locality)。
每个slave节点会划分成12~24个slots。整个集群约34,916个slots,其中Map slots是19,643个,Reduce slots是15,273个
所有作业会进行分成多个Group,按照部门或小组划分,总共有38个Group。整个集群的资源也是按各个Group进行划分,定义每个Group的最大并发任务数,Map slots与Reduce slots的使用上限。每个作业只能使用自己组的slots资源。
相关文章推荐
- 大数据实践:探秘淘宝Hadoop集群
- 淘宝Hadoop集群的概况
- 第一期:淘宝Hadoop集群的概况
- 淘宝Hadoop集群的概况(转)
- hadoop 集群大版本切换之保存数据和日志的方法
- Pentaho Work with Big Data(三)—— 向Hadoop集群导入数据
- 大数据测试之hadoop集群配置和测试
- 百度的Hadoop分布式大数据系统图解:4000节点集群
- Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
- 大数据教程(四)—— Hadoop集群VSFTP和SecureCRT安装配置
- 基于centos7搭建hadoop+zookeeper+hbase大数据集群
- 大数据 IMF 传奇 困扰很久的问题解决!ecliplse 远程提交程序到虚拟机 hadoop集群 ,ecliplse 没有显示输出 的问题解决!
- 老王大数据教程(一) centos上安装hadoop集群
- Hadoop大数据框架研究(3)——Spark的HA高可用性集群环境部署
- 大数据 hadoop2.6.0 高可用集群搭建(HA集群搭建)--亲测可用,入门必备
- 大数据面试题之Hadoop集群搭建步骤
- Hadoop集群应用于大数据分析优势和挑战
- sqoop-1.4.4导入导出mysql数据到hadoop2.2.0 HDSF集群
- R语言为Hadoop集群数据统计分析带来革命性变化
- CDH版本大数据集群下搭建Avro(hadoop-2.6.0-cdh5.5.4.gz + avro-1.7.6-cdh5.5.4.tar.gz的搭建)