[置顶] spark常用RDD算子 汇总(java和scala版本)
2017-05-14 20:52
429 查看
github: https://github.com/zhaikaishun/spark_tutorial
spark RDD的算子挺多,有时候如何灵活的使用,该如何用一下子想不起来,这一段时间将spark的算子如何使用的例子给记录了下来,下面是spark RDD 的一些常用算子的使用
这些算子包括有java的,也有scala的语言,由于精力有限,暂时没有python的,以后有空再加上吧
spark RDD算子(一) parallelize,makeRDD,textFile
spark RDD算子(二) filter,map ,flatMap
spark RDD算子(三) distinct,union,intersection,subtract,cartesian
spark RDD算子(四)之创建键值对RDD mapToPair flatMapToPair
spark RDD算子(五)之键值对聚合操作 combineByKey
spark RDD算子(六)之键值对聚合操作reduceByKey,foldByKey,排序操作sortByKey
spark RDD算子(七)之键值对分组操作 groupByKey,cogroup
spark RDD算子(八)之键值对关联操作 subtractByKey, join, rightOuterJoin, leftOuterJoin
spark RDD算子(九)之基本的Action操作 first, take, collect, count, countByValue, reduce, aggregate, fold,top
spark RDD算子(十)之PairRDD的Action操作countByKey, collectAsMap
spark RDD算子(十一)之RDD Action 保存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等
spark RDD算子(十二)之RDD 分区操作上mapPartitions, mapPartitionsWithIndex
spark RDD算子(十三)之RDD 分区 HashPartitioner,RangePartitioner,自定义分区
spark RDD的算子挺多,有时候如何灵活的使用,该如何用一下子想不起来,这一段时间将spark的算子如何使用的例子给记录了下来,下面是spark RDD 的一些常用算子的使用
这些算子包括有java的,也有scala的语言,由于精力有限,暂时没有python的,以后有空再加上吧
spark RDD算子(一) parallelize,makeRDD,textFile
spark RDD算子(二) filter,map ,flatMap
spark RDD算子(三) distinct,union,intersection,subtract,cartesian
spark RDD算子(四)之创建键值对RDD mapToPair flatMapToPair
spark RDD算子(五)之键值对聚合操作 combineByKey
spark RDD算子(六)之键值对聚合操作reduceByKey,foldByKey,排序操作sortByKey
spark RDD算子(七)之键值对分组操作 groupByKey,cogroup
spark RDD算子(八)之键值对关联操作 subtractByKey, join, rightOuterJoin, leftOuterJoin
spark RDD算子(九)之基本的Action操作 first, take, collect, count, countByValue, reduce, aggregate, fold,top
spark RDD算子(十)之PairRDD的Action操作countByKey, collectAsMap
spark RDD算子(十一)之RDD Action 保存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等
spark RDD算子(十二)之RDD 分区操作上mapPartitions, mapPartitionsWithIndex
spark RDD算子(十三)之RDD 分区 HashPartitioner,RangePartitioner,自定义分区
相关文章推荐
- [置顶] Spark常用算子详解汇总 : 实战案例、Java版本、Scala版本
- Spark RDD编程(Python和Scala版本)
- spark core之java和scala版本——电影受众分析系统--得分最高的10部电影;看过电影最多的前10个人
- Java和scala实现 Spark RDD转换成DataFrame的两种方法小结
- Spark-Scala-RDD 入门问题汇总
- SparkRDD简介/常用算子/依赖/缓存
- java-spark中各种常用算子的写法示例
- 3、Spark RDD介绍和常用算子
- Spark中RDD转换成DataFrame的两种方式(分别用Java和scala实现)
- spark sql之java和scala版本——电影受众分析系统--得分最高的10部电影;看过电影最多的前10个人
- [置顶] Android开发java开发之常用英文词汇汇总。程序员必备英语单词
- spark RDD操作算子详解(汇总)
- Spark中RDD转换成DataFrame的两种方式(分别用Java和scala实现)
- Spark RDD 常用算子
- [总结]基于Java的Spark、DF、RDD常用代码
- SparkRDDAPI常用算子说明
- Spark updateStateByKey Java 和 Scala 版本
- java,scala之spark streaming 版本的单词统计(通过监听端口)
- spark RDD操作算子详解(应用场景汇总)
- Spark RDD编程(Python和Scala版本)----Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。 Spa