shuffle的关键阶段sort(Map端和Reduce端)源码分析
2019-01-19 00:02
686 查看
源码中有这样一段代码
1. Map端排序获取的比较器
public RawComparator getOutputKeyComparator() { // 获取mapreduce.job.output.key.comparator.class,必须是RawComparator类型,如果没设置,是null Class<? extends RawComparator> theClass = getClass( JobContext.KEY_COMPARATOR, null, RawComparator.class); // 如果用户自定义了这个参数,那么实例化用户自定义的比较器 if (theClass != null) return ReflectionUtils.newInstance(theClass, this); // 默认情况,用户是没用自定义这个参数 // 判断Map输出的key,是否是WritableComparable的子类 // 如果是,调用当前类的内部的Comparator! return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this); }
总结: 如何对感兴趣的数据进行排序?
① 数据必须作为key
② 排序是框架自动排序,我们提供基于key的比较器,也就是Comparator,必须是RawComparator类型
a) 自定义类,实现RawComparator,重写compare()
指定mapreduce.job.output.key.comparator.class为自定义的比较器类型
b)key实现WritableComparable(推荐)
③ 实质都是调用相关的comparaTo()方法,进行比较
2. Reduce端进行分组的比较器
RawComparator comparator = job.getOutputValueGroupingComparator(); // 获取mapreduce.job.output.group.comparator.class,必须是RawComparator类型 // 如果没用设置,直接获取MapTask排序使用的比较器 // 也是比较key public RawComparator getOutputValueGroupingComparator() { Class<? extends RawComparator> theClass = getClass( JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class); if (theClass == null) { return getOutputKeyComparator(); } // 如果设置了,就使用设置的比较器 return ReflectionUtils.newInstance(theClass, this); }
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接
您可能感兴趣的文章:
相关文章推荐
- 源码分析-Reduce阶段shuffle分析
- 深入理解Spark 2.1 Core (十一):Shuffle Reduce 端的原理与源码分析
- 深入理解Spark 2.1 Core (十一):Shuffle Reduce 端的原理与源码分析
- 图解U-Boot:第二阶段源码分析
- 图解U-Boot:第一阶段源码分析
- MapReduce性能优化_6. 优化 Shuffle & Sort 阶段
- u-boot源码分析 --- 启动第二阶段001
- MapReduce中的Shuffle和Sort分析
- uboot源码分析-第一阶段(汇编部分)
- Collections.sort源码分析
- STL 源码分析《1》---- list 归并排序的 迭代版本, 神奇的 STL list sort
- Hadoop 1.x的Shuffle源码分析之3
- u-boot源码分析 --- 启动第二阶段 ,基于2410 启动代码 分析
- 【OpenVswitch源码分析之三】控制面关键接口与调用流程
- 《Spark商业案例与性能调优实战100课》第35课:彻底解密Spark 2.1.X中Sort Shuffle中TimSort排序源码具体实现
- MapReduce中的Shuffle和Sort分析
- Spark Sort Based Shuffle内存分析
- Spark Sort Based Shuffle内存分析
- Spark Sort Based Shuffle源码详细解析----数据流篇----Shuffle Write流
- hadoop核心逻辑shuffle代码分析-map端