mapreduce数据不平衡时的处理方法
2016-01-21 14:59
225 查看
用mr处理大数据经常遇到数据不平衡的情况,这里的数据不平衡指的是,数据中有少部分key集中了大量的数据,导致其它的reduce都运行完了,只剩几个reduce在跑。这种情况一般有如下三种解决方法(原理都差不多)。
1、重写partitioner
如果一个key对应的数据过过,那么可以在partitioner中对这个key进行分箱。通常做法是,在hash(key)后面加上一个字符串或数字,来把相同的key分发到不同的reduce中去。这里需要注意的是分多少个箱要估计一下,一般情况下,可根据key对应的数据规模粗略算一下,与其它的key的规模差不多即可,如果不知道规模的话,那就试验几个好了。这么做有一个问题,就是如果这个key的数据如果要与其它数据关联,则比较麻烦了,如果不想之后再写一个job处理,那么就需要把另一份数据也按照这个partitioner的分发方式分发。这会导致另一份数据产生大量冗余,如果另一份数据量大的话,推荐还是再写一个job进行关联。否则suffile阶段压力太大。
2、combiner
combiner运行的意义就是使map的输出更紧凑,使得写到本地磁盘和传给reduce的数据更少。这个不多说了。
3、根据业务
a、根据业务找出一个重复少,可以把当前key分箱的字段。把key与这个字段组合成新key。(原理与重写partitioner相似)
b、拆分成多步处理。
1、重写partitioner
如果一个key对应的数据过过,那么可以在partitioner中对这个key进行分箱。通常做法是,在hash(key)后面加上一个字符串或数字,来把相同的key分发到不同的reduce中去。这里需要注意的是分多少个箱要估计一下,一般情况下,可根据key对应的数据规模粗略算一下,与其它的key的规模差不多即可,如果不知道规模的话,那就试验几个好了。这么做有一个问题,就是如果这个key的数据如果要与其它数据关联,则比较麻烦了,如果不想之后再写一个job处理,那么就需要把另一份数据也按照这个partitioner的分发方式分发。这会导致另一份数据产生大量冗余,如果另一份数据量大的话,推荐还是再写一个job进行关联。否则suffile阶段压力太大。
2、combiner
combiner运行的意义就是使map的输出更紧凑,使得写到本地磁盘和传给reduce的数据更少。这个不多说了。
3、根据业务
a、根据业务找出一个重复少,可以把当前key分箱的字段。把key与这个字段组合成新key。(原理与重写partitioner相似)
b、拆分成多步处理。
相关文章推荐
- Android UI 实现广告 Banner 轮播效果
- tableview分割线左边长短的控制
- 基于Github构建Dubbo源码(Windows)
- sql server 父子层次查询
- 清除Cache缓存
- linux下面 UTF-8 <-> UTF-16/ UTF-32 互转代码
- Qt之自定义界面(添加自定义标题栏)
- Qt之自定义界面(添加自定义标题栏)
- Android 关于创建桌面快捷图标的几点笔记
- c++中const使用详解
- IntelliJ Idea编译报错,解决方法
- Android6.0 设备Idle状态(三) PowerManagerService
- 写一个针对IQueryable<T>的扩展方法支持动态排序
- MySQL 字符串函数
- ORACLE SEQUENCE用法
- SafariServices(简介)
- ReactJS组件间沟通的一些方法
- [Unity3D]UGUI 新手引导遮罩控件
- java apache commons HttpClient发送get和post请求的学习整理
- 浅谈Spring AOP