Python--Spark RDD操作(Python)总结
2017-03-02 22:15
525 查看
来源:http://blog.csdn.net/sinat_29581293/article/details/51487283
将原RDD中每个元素代入带入
返回包含所有在
将原RDD中的每一个元素映射为0个或者多个元素,每次map过程的返回值必须是集合(可空)
将
和mapPartitions方法一样,
对已有的RDD进行采样,
表示是否用随机值替换
合并两个已有的RDD,返回新一个的新的RDD
求两个RDD的交集,并去重,会引发洗牌操作
对RDD的元素去重
map(func)
将原RDD中每个元素代入带入func
1 2 3 | >>> rdd = sc.parallelize([1, 2, 3]) >>> rdd.map(lambda x: x*x).collect() [1, 4, 9] |
filter(func)
返回包含所有在func中结果为
True
1 2 3 | >>> rdd = sc.parallelize([1,2,3]) >>> rdd.filter(lambda x: x > 2).collect() [3] |
flatMap(func)
将原RDD中的每一个元素映射为0个或者多个元素,每次map过程的返回值必须是集合(可空)1 2 34 | >>> rdd = sc.parallelize([1,2,3]) >>> rdd.flatMap(lambda x: range(1, x)) // [] || [1] || [1 2] [1, 1, 2] |
mapPartitions(func)
将func方法分别应用于各个分区
1 2 34 | >>> rdd = sc.parallelize([1,2,3,4], 2) // 两个分区的数据分别为 [1,2] [3,4] >>> def f(x): yield sum(x) >>> rdd.mapPartitions(f).collect() [3, 7] |
mapPartitionsWithIndex(func)
和mapPartitions方法一样, func传入参数增加index
1 2 34 | >>> rdd = sc.parallelize([1,2,3,4], 2) >>> def f(i, x): yield i*sum(x) >>> rdd.mapPartitionsWithIndex(f).collect() //[0*(1+2), 1*(3+4)] [0, 7] |
sample(withReplacement, fraction, seed)
对已有的RDD进行采样,withReplacement布尔型,
表示是否用随机值替换
fraction采样比例
seed随机种子数
1 2 3 | >>> rdd = sc.parallelize(range(100)) >>> rdd.sample(False, 0.2, 81).count() 24 |
union(RDD)
合并两个已有的RDD,返回新一个的新的RDD
intersection(RDD)
求两个RDD的交集,并去重,会引发洗牌操作1 2 34 | >>> rdd1 = sc.parallelize([1, 2, 3, 4]) >>> rdd2 = sc.parallelize([3, 4, 5, 6]) >>> rdd1.intersection(rdd2).collect() [3,4] |
distinct()
对RDD的元素去重
相关文章推荐
- Spark RDD操作(Python)总结
- Spark中RDD的常用操作(Python)
- Spark总结(二)——RDD的Transformation操作
- python下spark_RDD认识与操作
- Spark总结(三)——RDD的Action操作
- Spark中RDD的常用操作(Python)
- [Spark][Python]RDD flatMap 操作例子
- Spark RDD操作总结
- python字符串操作总结
- python 基础操作知识整理总结
- python操作Excel画图总结
- python 日期相关的各种操作总结
- python字符串操作总结
- paip.字符串操作uapi java php python总结..
- paip.日期时间操作以及时间戳uapi php java python 总结
- paip.字符串操作uapi java php python总结..
- paip.数组以及集合的操作uapi java php python总结..
- python 日期相关的各种操作总结
- python list(列表)操作用法总结
- Python字典与集合操作总结