Spark函数讲解:collect
2016-05-23 09:51
246 查看
将RDD转成Scala数组,并返回。
函数原型
def collect(): Array[T] def collect[U: ClassTag](f: PartialFunction[T, U]): RDD[U]collect函数的定义有两种,我们最常用的是第一个。第二个函数需要我们提供一个标准的偏函数,然后保存符合的元素到MappedRDD中。
实例
scala> val one: PartialFunction[Int, String] = { case 1 => "one"; case _ => "other"} one: PartialFunction[Int,String] = <function1> scala> val data = sc.parallelize(List(2,3,1)) data: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[11] at parallelize at <console>:12 scala> data.collect(one).collect res4: Array[String] = Array(other, other, one)
注意
如果数据量比较大的时候,尽量不要使用collect函数,因为这可能导致Driver端内存溢出问题。相关文章推荐
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- Spark随谈——开发指南(译)
- Spark,一种快速数据分析替代方案
- Mootools 1.2教程 函数
- autoit InputBox 函数
- 文件遍历排序函数
- Oracle 函数大全[字符串函数,数学函数,日期函数]第1/4页
- ASP下经常用的字符串等函数参考资料
- PostgreSQL教程(五):函数和操作符详解(1)
- DOS批处理 函数定义与用法
- asp Chr 函数 数字转字母的方法
- Lua中的函数精讲笔记
- Lua中的闭合函数、非全局函数与函数的尾调用详解
- Lua中调用C++函数示例
- Lua实现split函数
- Lua常用时间函数使用实例
- Lua函数与字符串处理简明总结
- Lua学习笔记之表和函数
- Lua中实现sleep函数功能的4种方法