Spark算子
2019-07-18 09:25
351 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_38325614/article/details/96423024
RDD中算子可分为两类:
1.trasformation(延迟加载/懒执行)
- flatMap(); //进一多出
- mapToPair();//将RDD转为KV格式
- reduceByKey();//将相同的key分为一组,然后对每组key对应的value做处理
- sortByKey();//根据key来做排序
- filter();//过滤掉返回值为false的数据
- sample();//抽样
- collect();//回收
- map(); //一次处理一条数据
- mapPartition();//一次处理一个分区的数据
- join();//合并两个RDD中相同key的数据,产生一个新的RDD,新的RDD中partition的数量为调用join方法的RDD的partition数量(RDD中的数据格式需为KV格式)
- leftOuterJoin();//合并左边RDD的全部数据与右边RDD相同key的数据,产生一个新的RDD,新的RDD中partition的数量为调用join方法的RDD的partition数量(RDD需为KV格式)
- rightOuterJoin();//合并右边RDD的全部数据与左边RDD相同key的数据,产生一个新的RDD,新的RDD中partition的数量为调用join方法的RDD的partition数量(RDD需为KV格式)
- fullOuterJoin();//合并两个RDD中所有数据,产生一个新的RDD,新的RDD中partition的数量为调用join方法的RDD的partition数量(RDD需为KV格式)
- union();//返回两个RDD的并集,产生新的RDD,新的RDD中partition的数量为两个RDDpartition数量之和(RDD需为KV格式,且两个RDD数据类型完全一致)
- intersection();//返回两个RDD的交集
- subtract();//返回两个RDD的差集
- distinct();//去重
2.action
- foreach();//遍历RDD,一次一条
- foreachPartition();//遍历RDD,一次一个partition
- count();//计数
- first();//获取第一行数据,底层用take(1)实现的
- take();//获取指定行数的数据
3.持久化算子
- cache();//默认将RDD中的数据存在内存中,属于懒执行算子,需要action算子来触发,底层用presist()实现的(cache() = presist() = presist(StorageLeavel.MEMORY_ONLY))
- presist();//可以指定持久化级别,默认MEMORY_ONLY(只在内存中),属于懒执行算子,需要action算子来触发
_useDisk:是否使用磁盘
_useMemory: 是否使用内存
_useOffHeap: 是否使用对外内存
_deserialized: 不序列化
_replication: 副本数,默认是1 - checkpoint: 将数据存储在磁盘中
相关文章推荐
- Spark算子总结及案例
- Spark算子--partitionBy
- Spark算子:RDD行动Action操作(5)–saveAsTextFile、saveAsSequenceFile、saveAsObjectFile
- 【Spark篇】---Spark中控制算子
- Spark join与cogroup算子
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:统计RDD分区中的元素及数量
- Spark算子之mapPartitions
- Spark算子--RDD的基本转换
- Spark算子系列文章
- Spark2.0.X算子源码深度剖析之MapPartitionsRDD,绝对让你看清楚算子的计算本质
- [置顶] spark常用RDD算子 汇总(java和scala版本)
- Spark算子:RDD行动Action操作(1)–first、count、reduce、collect
- Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset
- spark算子中用到scalal类,由于未序列化报错
- Spark算子汇总和理解(详细)
- Spark算子[07]:reduce,reduceByKey,count,countByKey
- Spark算子:RDD键值转换操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey
- Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset
- spark--actions算子--takeSample