您的位置：首页 > 其它

Spark API 详解/大白话解释之 RDD、partition、count、collect

2018-02-12 16:39 465 查看

Spark API 详解/大白话解释之 RDD、partition、count、collect

标签： spark2016-01-21 11:25 6086人阅读评论(0) 收藏举报

分类：Spark（34）

一个RDD可以看成是一个数组

不过是分到各个分区，分布在不同的机器上，可并行处理。分区的定义：
一个RDD有多个RDD分区
一个RDD分区只在一个机器上
一个机器可有多个RDD分区
http://stackoverflow.com/questions/31359219/relationship-between-rdd-partitions-and-nodes由数据转换为RDD：举例：从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中。这个RDD一共9个元素，每个元素含有一个数字

val a = sc.parallelize(1 to 9, 3)

1
举例：读取本地文件README.md来创建RDD，文件中的每一行就是RDD中的一个元素，分区是2

val b = sc.textFile("README.md",2)

1
count( )
返回RDD的元素个数collect( )
返回整个RDDhttp://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

Spark API 详解/大白话解释 之 RDD、partition、count、collect

Spark API 详解/大白话解释 之 RDD、partition、count、collect

一个RDD可以看成是一个数组

Spark API 详解/大白话解释之 RDD、partition、count、collect

Spark API 详解/大白话解释之 RDD、partition、count、collect