Hadoop集群在百度的应用
2013-09-15 00:00
295 查看
百度对海量数据处理的要求是比较高的,要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上在百度,Hadoop 集群 主要应用于以下几个方面:
·日志的存储和统计;
·网页数据的分析和挖掘;
·商业分析,如用户的行为和广告关注度等;
·在线数据的反馈,及时得到在线广告的点击情况;
·用户网页的聚类,分析用户的推荐度及用户之间的关联度。
MapReduce主要是一种思想,不能解决所有领域内与计算有关的问题,百度的研究人员认为比较好的模型应该如下图所示,HDFS实现共享存储,一些计算使用MapReduce解决,一些计算使用MPI解决,而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据,所以在处理这类数据时就可以用MapReduce做一些过滤,得到基本的向量矩阵,然后通过MPI进一步处理后返回结果,只有整合技术才能更好地解决问题。百度现在拥有3个Hadoop集群,总规模在700台机器左右,其中有100多台新机器和600多台要淘汰的机器,不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右,处理数据约120TB/天.......
转自:http://leezk.com/2013/09/hadoop/hadoop-%E9%9B%86%E7%BE%A4-428
·日志的存储和统计;
·网页数据的分析和挖掘;
·商业分析,如用户的行为和广告关注度等;
·在线数据的反馈,及时得到在线广告的点击情况;
·用户网页的聚类,分析用户的推荐度及用户之间的关联度。
MapReduce主要是一种思想,不能解决所有领域内与计算有关的问题,百度的研究人员认为比较好的模型应该如下图所示,HDFS实现共享存储,一些计算使用MapReduce解决,一些计算使用MPI解决,而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据,所以在处理这类数据时就可以用MapReduce做一些过滤,得到基本的向量矩阵,然后通过MPI进一步处理后返回结果,只有整合技术才能更好地解决问题。百度现在拥有3个Hadoop集群,总规模在700台机器左右,其中有100多台新机器和600多台要淘汰的机器,不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右,处理数据约120TB/天.......
转自:http://leezk.com/2013/09/hadoop/hadoop-%E9%9B%86%E7%BE%A4-428
相关文章推荐
- Hadoop在百度的应用--4000个节点的分布式集群
- Hadoop在百度的应用--4000个节点的分布式集群
- Hadoop在百度的应用--4000个节点的分布式集群
- Hadoop在百度的应用--4000个节点的分布式集群
- Hadoop在百度的应用--4000个节点的分布式集群
- Hadoop在百度Facebook的应用(转)
- 腾讯TDW:大型Hadoop集群应用
- 在JAVA应用中远程提交MapReduce程序至Hadoop集群运行
- Spark技术解析及其在百度最大单集群1300台的应用实践
- [COPY]Hadoop应用案例分析:在百度中的应用
- 第四章 Hadoop2.x应用开发step by step——Hadoop2.x集群环境
- Hadoop 在百度的应用
- 百度Hadoop分布式系统揭秘:4000节点集群
- 腾讯TDW:大型Hadoop集群应用
- [Hadoop] 实际应用场景之 - 百度 - Zhu_Julian's Notes (朱显杰的技术博客) - 博客频道 - CSDN.NET
- 每一天都有更多的数据、用户和应用在加入Apache Hadoop这个日益壮大的集群中来。虽然对于整个数据驱动的组织来说这是一个好消息,但对于安全管理员和监察人员来说,如何让终端用户在现存的Hadoop
- docker应用-3(搭建hadoop以及hbase集群)
- docker应用-3(搭建hadoop以及hbase集群)
- [Hadoop] 实际应用场景之 - 百度
- 文档式数据库在Hadoop集群中的应用