您的位置:首页 > 其它

Spark RDD概念学习系列之如何创建RDD

2017-06-04 17:41 253 查看
  不多说,直接上干货!

创建RDD

  方式一:从集合创建RDD

 (1)makeRDD

  (2)Parallelize

注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。

  方式二:读取外部存储创建RDD

  Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。

  (1)多文件格式支持:

      


  (2)多文件系统支持:

      1)本地文件系统

      2)S3

      3)HDFS

  (3)数据库

      1)JdbcRDD

      2)spark-cassandra-connector(datastax/spark-cassandra-connector)

      3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)

      4)Elasticsearch-Hadoop
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: