您的位置:首页 > 运维架构

Hadoop集群在百度的应用

2013-09-15 00:00 295 查看
百度对海量数据处理的要求是比较高的,要在线下对数据进行分析,还要在规定的时间内处理完并反馈到平台上在百度,Hadoop 集群 主要应用于以下几个方面:   

·日志的存储和统计;   

·网页数据的分析和挖掘;   

·商业分析,如用户的行为和广告关注度等;   

·在线数据的反馈,及时得到在线广告的点击情况;   

·用户网页的聚类,分析用户的推荐度及用户之间的关联度。

MapReduce主要是一种思想,不能解决所有领域内与计算有关的问题,百度的研究人员认为比较好的模型应该如下图所示,HDFS实现共享存储,一些计算使用MapReduce解决,一些计算使用MPI解决,而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据,所以在处理这类数据时就可以用MapReduce做一些过滤,得到基本的向量矩阵,然后通过MPI进一步处理后返回结果,只有整合技术才能更好地解决问题。百度现在拥有3个Hadoop集群,总规模在700台机器左右,其中有100多台新机器和600多台要淘汰的机器,不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右,处理数据约120TB/天.......

转自:http://leezk.com/2013/09/hadoop/hadoop-%E9%9B%86%E7%BE%A4-428
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Hadoop Hadoop集群 百度