您的位置：首页 > 运维架构

Hadoop集群在百度的应用

2013-09-15 00:00 295 查看

百度对海量数据处理的要求是比较高的，要在线下对数据进行分析，还要在规定的时间内处理完并反馈到平台上在百度，Hadoop 集群主要应用于以下几个方面：　　

·日志的存储和统计; 　　

·网页数据的分析和挖掘; 　　

·商业分析，如用户的行为和广告关注度等; 　　

·在线数据的反馈，及时得到在线广告的点击情况; 　　

·用户网页的聚类，分析用户的推荐度及用户之间的关联度。

MapReduce主要是一种思想，不能解决所有领域内与计算有关的问题，百度的研究人员认为比较好的模型应该如下图所示，HDFS实现共享存储，一些计算使用MapReduce解决，一些计算使用MPI解决，而还有一些计算需要通过两者来共同处理。因为MapReduce适合处理数据很大且适合划分的数据，所以在处理这类数据时就可以用MapReduce做一些过滤，得到基本的向量矩阵，然后通过MPI进一步处理后返回结果，只有整合技术才能更好地解决问题。百度现在拥有3个Hadoop集群，总规模在700台机器左右，其中有100多台新机器和600多台要淘汰的机器，不过其规模还在不断的增加中。现在每天运行的MapReduce任务在3000个左右，处理数据约120TB/天.......

转自：http://leezk.com/2013/09/hadoop/hadoop-%E9%9B%86%E7%BE%A4-428

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Hadoop Hadoop集群百度

相关文章推荐

新的分享

章节导航