您的位置：首页 > 其它

shuffle的关键阶段sort(Map端和Reduce端)源码分析

2019-01-19 00:02 686 查看

源码中有这样一段代码

1. Map端排序获取的比较器

public RawComparator getOutputKeyComparator() {
// 获取mapreduce.job.output.key.comparator.class，必须是RawComparator类型，如果没设置，是null
Class<? extends RawComparator> theClass = getClass(
JobContext.KEY_COMPARATOR, null, RawComparator.class);
// 如果用户自定义了这个参数，那么实例化用户自定义的比较器
if (theClass != null)
return ReflectionUtils.newInstance(theClass, this);
// 默认情况，用户是没用自定义这个参数
// 判断Map输出的key，是否是WritableComparable的子类
//  如果是，调用当前类的内部的Comparator!
return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);
}

总结：如何对感兴趣的数据进行排序？

① 数据必须作为key

② 排序是框架自动排序，我们提供基于key的比较器，也就是Comparator，必须是RawComparator类型

a) 自定义类，实现RawComparator，重写compare()

指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

b）key实现WritableComparable(推荐)

③ 实质都是调用相关的comparaTo()方法，进行比较

2. Reduce端进行分组的比较器

RawComparator comparator = job.getOutputValueGroupingComparator();
// 获取mapreduce.job.output.group.comparator.class，必须是RawComparator类型
// 如果没用设置，直接获取MapTask排序使用的比较器
// 也是比较key
public RawComparator getOutputValueGroupingComparator() {
Class<? extends RawComparator> theClass = getClass(
JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);
if (theClass == null) {
return getOutputKeyComparator();
}
// 如果设置了，就使用设置的比较器
return ReflectionUtils.newInstance(theClass, this);
}

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

您可能感兴趣的文章:

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航