您的位置：首页 > 数据库

spark学习-SparkSQL--09-一些函数的使用

2017-08-15 21:22 337 查看

1。parallelizePairs余parallelize

/** Distribute a local Scala collection to form an RDD. */
def parallelizePairs[K, V](list: java.util.List[Tuple2[K, V]], numSlices: Int)
: JavaPairRDD[K, V] = {
implicit val ctagK: ClassTag[K] = fakeClassTag
implicit val ctagV: ClassTag[V] = fakeClassTag
JavaPairRDD.fromRDD(sc.parallelize(list.asScala, numSlices))
}

可以源代码得到 parallelizePairs=======》调用===parallelize

parallelize相当于直接拷贝了原始数据（只不过可以并行计算，初学者可以这样理解）

parallelizePairs相当于直接拷贝了原始数据并且把第一个数据当做key（形成key-value的形式）

2。

subtractByKey

类似于subtrac，删掉 RDD 中键与 other RDD 中的键相同的元素

3。

RDD1.join(RDD2)

可以把RDD1,RDD2中的相同的key给连接起来，类似于sql中的join操作

4。

leftOuterJoin

对两个 RDD 进行连接操作，类似于sql中的左外连接

5。

rightOuterJoin

对两个 RDD 进行连接操作，类似于sql中的右外连接，存在的话，value用的Some, 不存在用的None,具体的看上面的图和下面的代码即可

6。

ImmutableBytesWritable 是一个16进制的一个字符串，看不懂 String abc=Bytes.toString(key.get());直接这样转一下就可以了，因为中文在hbase中是16进制存储

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航