您的位置:首页 > 其它

Spark学习之RDD操作使用(pyspark)

2018-07-27 16:04 246 查看
版权声明:本文为博主原创学习笔记,如需转载请注明来源: https://blog.csdn.net/wugenqiang/article/details/81239174

两种常用的RDD类型:

1. 并行集合(Parallelized Collections): 来自于分布式化的数据对象,比如用户自己键入的数据

 2. 文件系统数据集: Hadoop Datasets 或文本文件,比如通过SparkContext.textFile()读取的数据

因为RDD的俩种不同类型,所以我们使用文件有不同方式

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: