您的位置:首页 > 其它

浅谈MapRuduce的几种Join方式

2014-12-11 20:42 232 查看

Reduce Side Joins

(Reference:http://codingjunkie.net/mapreduce-reduce-joins/)

在所有的join pattern算法中,reduce-side join时最容易实现的。之所以reduce-side joins这么简单直接,是因为Hadoop会默认将具有相同键(Key)的pair发送到同一个Reducer去执行reduce任务,因此,可以认为Reduce数据已经默认为我们组织好了,这一点不需要我们自己在花费更多的经历去处理。为了执行join操作,我们只需要缓存已经读入keys,同时将其与即将读入的keys进行比较。一旦发现读入的key与已存在的key相匹配,就将相应的key对应的values执行join操作。由于hadoop中所有的数据都是通过网络重新洗牌的(since all of the data is shuffled across the network),因此我们需要对reduce-side join的性能进行权衡。我们需要考虑reduce-side join的两种场景:one-to-one和one-to-many。我们同时也在探索在步需要对keys的来源进行跟踪的解决方案,对于一个key的所有values都会被分到reducer的同一个组中去执行。

Map Side Joins

(Reference:http://codingjunkie.net/mapside-joins/)

Reduce Side Join很容易实现,但是在这种方式需要讲所有的数据都通过网络发送给reducers。Map-Side joins不需要将所有数据发送至reducer端由此可以减少大量的网络带宽花费。但是map-side join并没又reduce-side join灵活,map-side join的执行需要满足非常严格的标准。

Map-side join科执行的条件:

要想进行map-side join,输入数据必须能够满足如下两个条件之一:

A. 需要进行join操作的两个数据集合已经按照相同的key被排好序,同时具有相同的数量的partitions;

B. 在需要进行join操作的两个集合里,又一个较小的可以直接被放到内存中。

小结

  map-reduce不只以上所说的量中join方法,对于选择的两篇文章我也只是翻译了其中的理论部分,这两片文章中都有很好的代码实例!
  另外,个人感觉reduce-side join还是很灵活的,其实如果数据量不是特别大的话,完全可以直接选择reduce-side join。
  同时针对不同格式的输入文件,我们还可以对不同输入格式的数据源进行join操作,具体只需要调用hadoop已经实现的MultipleInputs.addInputPath方法就可以具体的输入源对应的PATH、FomartClass、MapClass,如下方式:
MultipleInputs.addInputPath(job, p, SequenceFileInputFormat.class, JoinLogMapper.class);
其中job就是你要提交的job!
  不断积累,永远相信美好的事即将发生~~
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: