Spark RDD概念学习系列之如何创建RDD
2017-06-04 17:41
253 查看
不多说,直接上干货!
(1)makeRDD
(2)Parallelize
注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。
方式二:读取外部存储创建RDD
Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。
(1)多文件格式支持:
(2)多文件系统支持:
1)本地文件系统
2)S3
3)HDFS
(3)数据库
1)JdbcRDD
2)spark-cassandra-connector(datastax/spark-cassandra-connector)
3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)
4)Elasticsearch-Hadoop
创建RDD
方式一:从集合创建RDD(1)makeRDD
(2)Parallelize
注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。
方式二:读取外部存储创建RDD
Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。
(1)多文件格式支持:
(2)多文件系统支持:
1)本地文件系统
2)S3
3)HDFS
(3)数据库
1)JdbcRDD
2)spark-cassandra-connector(datastax/spark-cassandra-connector)
3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)
4)Elasticsearch-Hadoop
相关文章推荐
- Spark RDD概念学习系列之如何创建Pair RDD
- Spark RDD概念学习系列之RDD的创建(六)
- Spark RDD概念学习系列之RDD的操作(七)
- Spark RDD概念学习系列之Spark Hash Shuffle内幕彻底解密(二十)
- Spark RDD概念学习系列之为什么会引入RDD?(一)
- Spark RDD概念学习系列之细谈RDD的弹性(十六)
- Spark RDD概念学习系列之transformation操作
- Spark RDD概念学习系列之rdd的依赖关系彻底解密(十九)
- Spark RDD概念学习系列之Pair RDD的transformation操作
- Spark RDD概念学习系列之RDD的容错机制(十七)
- Spark RDD概念学习系列之典型RDD的特征
- Spark RDD概念学习系列之Spark的算子的分类(十一)
- Spark RDD/Core概念学习系列
- Spark 概念学习系列之如何构建Spark作业?(七)
- Spark RDD概念学习系列之rdd的依赖关系彻底解密(十九)
- Spark RDD概念学习系列之RDD接口
- Spark RDD概念学习系列之RDD的本质特征
- Spark RDD概念学习系列之Spark的算子的分类
- Spark RDD概念学习系列之RDD的缺点(二)
- Spark RDD概念学习系列之RDD的5大特点