您的位置：首页 > 其它

spark02--RDD概念,属性,类型,32个常用算子,创建,reduceByKey和groupByKey的区别

2019-01-02 19:06 330 查看

文章目录

一弹性分布式数据集(RDD)
1.1 高容错
1.2 位置感知性调度
1.3 可伸缩性

二 RDD的属性

三 RDD类型

3.1 Transformation
3.2 Action

四创建RDD方式三种方式

五 reduceByKey和groupBykey的区别

一弹性分布式数据集(RDD)

RDD是一个分布式数据集, 是spark中最基本的数据抽象, 是一个不可变, 可分区, 里面的元素可以并行计算的集合, 具有高容错, 位置感知性调度, 可伸缩性的特点

1.1 高容错

RDD的容错性其实就是为了提高计算效率, 如果在shuffle前发生宕机, 只需要把丢失的分区对应的父RDD分区进行重新计算即可, 如果是shuffle后的分区数据丢失, 此时就需要将整个父RDD的分区调用shuffle算子进行重新计算
RDD的容错性就是指RDD分区的恢复过程, 和Worker宕机无关

1.2 位置感知性调度

位置感知就是把具体的计算逻辑发送到对应的数据节点上, 进行计算, 可以有效避免发生大量网络IO

如果Worker节点和datanode节点不是一个几点的话, 这个时候Worker会从datanode节点上拉取数据

如果工作的Worker节点发生了宕机, 这个时候不会重新开启一个worker, 而是会将宕机的那个节点所执行的任务分配到另一个worker上

1.3 可伸缩性

RDD可以实现自动容错

二 RDD的属性

A list of partitions
A function for computing each split
A list of dependencies on other RDDs
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

1）一组分片（Partition），即数据集的基本组成单位。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。

2）一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。

3）RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。

4）一个Partitioner，即RDD的分片函数。当前Spark中实现了两种类型的分片函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。只有对于key-value的RDD，才会有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了parent RDD Shuffle输出时的分片数量。

5）一个列表，存储存取每个Partition的优先位置（preferred location）。对于一个HDFS文件来说，这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。

三 RDD类型

官网链接: https://spark.apache.org/docs/2.2.0/rdd-programming-guide.html#basics

带有By的算子都是发生在shuffle过程

3.1 Transformation

特点: 延迟加载
常用的Transformation

转换	含义
map(func)	返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成
filter(func)	返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成
flatMap(func)	类似于map，但是每一个输入元素可以被映射为0或多个输出元素（所以func应该返回一个序列，而不是单一元素）
mapPartitions(func)	类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func)	类似于mapPartitions，但func带有一个整数参数表示分片的索引值，因此在类型为T的RDD上运行时，func的函数类型必须是(Int, Iterator[T]) => Iterator[U]
sample(withReplacement, fraction, seed)	根据fraction指定的比例对数据进行采样，可以选择是否使用随机数进行替换，seed用于指定随机数生成器种子
union(otherDataset)	对源RDD和参数RDD求并集后返回一个新的RDD
intersection(otherDataset)	对源RDD和参数RDD求交集后返回一个新的RDD
distinct([numTasks]))	对源RDD进行去重后返回一个新的RDD
groupByKey([numTasks])	在一个(K,V)的RDD上调用，返回一个(K, Iterator[V])的RDD
reduceByKey(func, [numTasks])	在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，与groupByKey类似，reduce任务的个数可以通过第二个可选的参数来设置
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
sortByKey([ascending], [numTasks])	在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks])	与sortByKey类似，但是更灵活
join(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable,Iterable))类型的RDD
cartesian(otherDataset)	笛卡尔积
pipe(command, [envVars])
coalesce(numPartitions)	重新分区
repartition(numPartitions)	重新分区
repartitionAndSortWithinPartitions(partitioner)	重新分区

3.2 Action

立即运行
在源码中Action算子会调用 runJob 方法
每调用一个action算子就相当于提交了一个Job

动作	含义
reduce(func)	通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的
collect()	在驱动程序中，以数组的形式返回数据集的所有元素
count()	返回RDD的元素个数
first()	返回RDD的第一个元素（类似于take(1)）
take(n)	返回一个由数据集的前n个元素组成的数组
takeSample(withReplacement,num, [seed])	返回一个数组，该数组由从数据集中随机采样的num个元素组成，可以选择是否用随机数替换不足的部分，seed用于指定随机数生成器种子
takeOrdered(n, [ordering])	takeOrdered和top类似，只不过以和top相反的顺序返回元素
saveAsTextFile(path)	将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统，对于每个元素，Spark将会调用toString方法，将它装换为文件中的文本
saveAsSequenceFile(path)	将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下，可以使HDFS或者其他Hadoop支持的文件系统。
saveAsObjectFile(path)
countByKey()	针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数。
foreach(func)	在数据集的每一个元素上，运行函数func进行更新。

四创建RDD方式三种方式

1)由一个已经存在的Scala集合创建。

sc.parallelize(Array(1,2,3,4))

2)由外部存储系统的数据集创建，包括本地的文件系统，还有所有Hadoop支持的数据集，比如HDFS、Cassandra、HBase等

sc.textFile("hdfs://hadoop:8020/word.txt")

3)使用makeRDD函数创建

sc.makeRDD(Array(1,2,3,4))

五 reduceByKey和groupBykey的区别

reduceByKey会先进行局部聚合, 再进行全局聚合, 这样会大大减少网络IO, 起到优化作用, 所以在能用到reduceByKey的情况下用reduceByKey
groupByKey

reduce 24000 ByKey

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

spark02--RDD概念,属性,类型,32个常用算子,创建,reduceByKey和groupByKey的区别

文章目录

一 弹性分布式数据集(RDD)

1.1 高容错

1.2 位置感知性调度

1.3 可伸缩性

二 RDD的属性

三 RDD类型

3.1 Transformation

3.2 Action

四 创建RDD方式三种方式

五 reduceByKey和groupBykey的区别

一弹性分布式数据集(RDD)

四创建RDD方式三种方式