您的位置：首页 > 其它

MapReduce端的二次排序以及对移动计算而不是移动数据的理解

2016-12-02 22:28 204 查看

，
1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍，第一遍是在map端执行，针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候，达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的，所以我们的数据在硬盘上可以sort排序，而且在map执行完任务之后数据就不见了)，那么当程序执行到reduce之后，reduce端shuffle首先会将各个map端的数据都抓取到reduce端的内存缓冲区中，等达到内存缓冲区的80%的时候就会溢出到硬盘，硬盘作为内存缓冲区，在这里会第二次执行我们写的sort排序，也就是二次排序！这就是有名的二次排序！

2.不要再认为sort+group是二次排序了，group的作用就是一次性将同一组数据交给一个reduce任务处理！

3.这里需要强调的是：map任务不是随随便便地分配给某个TaskTracker的，这里有个概念叫：数据本地化（Data-Local）。意思是：将map任务分配给含有该map处理的数据块的TaskTracker上，同时将程序JAR包复制到该TaskTracker上来运行，这叫“运算移动，数据不移动”。而分配reduce任务时并不考虑数据本地！

上面也就是说，移动计算而不是移动数据实际上是针对shuffle之前的map端而言的，而不是针对reduce端而言的！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航