您的位置:首页 > 其它

Spark算子[01]:foreach,foreachPartition

2017-11-28 10:50 429 查看

概述

RDD.foreachPartition/foreach这两个action的操作:

这两个action主要用于对每个partition中的iterator实行迭代的处理。通过用户传入的function对iterator进行内容的处理。

foreach的操作

在foreach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个rdd的kv实例,也就是具体的内容,这种处理你并不知道这个iterator的foreach什么时候结束,只能是foreach的过程中,你得到一条数据,就处理一条数据。

由下面的源码中,foreach操作是直接调迭代rdd中每一条数据进行function操作。

/**
* Applies a function f to all elements of this RDD.
* 将函数应用在RDD的所有元素;
*/
def foreach(f: T => Unit): Unit = withScope {
val cleanF = sc.clean(f)
//runJob job的运行
sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
}


示例说明:

val list = new ArrayBuffer()
Rdd.foreach(record => {
list += record
If (list.size >= 10000) {
list.flush....
}
})


上面这段示例代码中,如果这么使用就会存在一个问题:

迭代的最后,list的结果可能还没有达到10000条,这个时候,你在内部的处理的flush部分就不会执行,也就是迭代的最后如果没有达到10000的数据就会丢失。

所以在foreach中,一般就是拿到一条数据进行下处理Rdd.foreach(record => {record._1 == a return})。

foreachPartition操作

这个函数也是根据传入的function进行处理,但不同处在于,这里function的传入参数是一个partition对应数据的iterator,而不是直接使用iterator的foreach。

/**
* Applies a function f to each partition of this RDD.
* 将函数f应用于该RDD的每个分区。
*/
def foreachPartition(f: Iterator[T] => Unit): Unit = withScope {
val cleanF = sc.clean(f)
sc.runJob(this, (iter: Iterator[T]) => cleanF(iter))
}


示例代码:

这种情况下,如果是上面foreach的示例代码中list这个片段在这个action中就能够正常的去处理。

Val list = new ArrayBuffer
rdd.foreachPartition(it => {
It.foreach(r => {
List += r
If (list.size > 10000) flush
})
If (list.size > 0) flush
})


总结

最后说下这两个action的区别:

Foreach与foreachPartition都是在每个partition中对iterator进行操作,不同的是,foreach是直接在每个partition中直接对iterator执行foreach操作,而传入的function只是在foreach内部使用;

而foreachPartition是在每个partition中把iterator给传入的function,让function自己对iterator进行处理。

在实践中发现,foreachPartitions类的算子,对性能的提升还是很有帮助的。比如在foreach函数中,将RDD中所有数据写MySQL,那么如果是普通的foreach算子,就会一条数据一条数据地写,每次函数调用可能就会创建一个数据库连接,此时就势必会频繁地创建和销毁数据库连接,性能是非常低下;但是如果用foreachPartitions算子一次性处理一个partition的数据,那么对于每个partition,只要创建一个数据库连接即可,然后执
922e
行批量插入操作,此时性能是比较高的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: