您的位置:首页 > 其它

Spark API 详解/大白话解释 之 RDD、partition、count、collect

2018-02-12 16:39 465 查看
 

Spark API 详解/大白话解释 之 RDD、partition、count、collect

标签: spark2016-01-21 11:25 6086人阅读 评论(0) 收藏 举报

 分类:Spark(34) 

版权声明:本文为博主原创文章,未经博主允许不得转载。 http://blog.csdn.net/guotong1988/article/details/50554034RDD定义:任何数据在Spark中都被转换为RDD。

一个RDD可以看成是一个数组

不过是分到各个分区,分布在不同的机器上,可并行处理。分区的定义: 
一个RDD有多个RDD分区 
一个RDD分区只在一个机器上 
一个机器可有多个RDD分区 
http://stackoverflow.com/questions/31359219/relationship-between-rdd-partitions-and-nodes由数据转换为RDD:举例:从普通数组创建RDD,里面包含了1到9这9个数字,它们分别在3个分区中。这个RDD一共9个元素,每个元素含有一个数字
val a = sc.parallelize(1 to 9, 3)
1
举例:读取本地文件README.md来创建RDD,文件中的每一行就是RDD中的一个元素,分区是2
val b = sc.textFile("README.md",2)
1
count( ) 
返回RDD的元素个数collect( ) 
返回整个RDDhttp://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: