Spark API 详解/大白话解释 之 RDD、partition、count、collect
2018-02-12 16:39
465 查看
Spark API 详解/大白话解释 之 RDD、partition、count、collect
标签: spark2016-01-21 11:25 6086人阅读 评论(0) 收藏 举报分类:Spark(34)
版权声明:本文为博主原创文章,未经博主允许不得转载。 http://blog.csdn.net/guotong1988/article/details/50554034RDD定义:任何数据在Spark中都被转换为RDD。
一个RDD可以看成是一个数组
不过是分到各个分区,分布在不同的机器上,可并行处理。分区的定义:一个RDD有多个RDD分区
一个RDD分区只在一个机器上
一个机器可有多个RDD分区
http://stackoverflow.com/questions/31359219/relationship-between-rdd-partitions-and-nodes由数据转换为RDD:举例:从普通数组创建RDD,里面包含了1到9这9个数字,它们分别在3个分区中。这个RDD一共9个元素,每个元素含有一个数字
val a = sc.parallelize(1 to 9, 3)1
举例:读取本地文件README.md来创建RDD,文件中的每一行就是RDD中的一个元素,分区是2
val b = sc.textFile("README.md",2)1
count( )
返回RDD的元素个数collect( )
返回整个RDDhttp://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
相关文章推荐
- Spark API 详解/大白话解释 之 RDD、partition、count、collect
- Spark API 详解/大白话解释 之 groupBy、groupByKey
- Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
- Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
- Spark API 详解/大白话解释 之 groupBy、groupByKey
- Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
- Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
- Spark API 详解/大白话解释 之 reduce、reduceByKey
- Spark API 详解/大白话解释 之 reduce、reduceByKey
- Spark RDD API详解(一) Map和Reduce
- 通过wordCount实战详解Spark RDD创建 -- (视频笔记)
- Spark RDD API详解(一) Map和Reduce
- spark2.x由浅入深深到底系列六之RDD java api详解三
- 3.4 Spark RDD Action操作1-first、count、lookup、collect
- Spark RDD API详解之Map和Reduce
- Spark RDD API详解
- Spark算子:RDD行动Action操作(1)–first、count、reduce、collect
- [Dynamic Language] pyspark Python3.7环境设置 及py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe解决!
- spark2.x由浅入深深到底系列六之RDD java api详解四
- Spark RDD API具体解释(一) Map和Reduce