您的位置:首页 > 数据库

spark学习-SparkSQL--09-一些函数的使用

2017-08-15 21:22 337 查看
1。parallelizePairs余parallelize

/** Distribute a local Scala collection to form an RDD. */
def parallelizePairs[K, V](list: java.util.List[Tuple2[K, V]], numSlices: Int)
: JavaPairRDD[K, V] = {
implicit val ctagK: ClassTag[K] = fakeClassTag
implicit val ctagV: ClassTag[V] = fakeClassTag
JavaPairRDD.fromRDD(sc.parallelize(list.asScala, numSlices))
}


可以源代码得到 parallelizePairs=======》调用===parallelize

parallelize相当于直接拷贝了原始数据(只不过可以并行计算,初学者可以这样理解)

parallelizePairs相当于直接拷贝了原始数据并且把第一个数据当做key(形成key-value的形式)

2。

subtractByKey

类似于subtrac,删掉 RDD 中键与 other RDD 中的键相同的元素

3。

RDD1.join(RDD2)

可以把RDD1,RDD2中的相同的key给连接起来,类似于sql中的join操作

4。

leftOuterJoin

对两个 RDD 进行连接操作,类似于sql中的左外连接

5。

rightOuterJoin

对两个 RDD 进行连接操作,类似于sql中的右外连接,存在的话,value用的Some, 不存在用的None,具体的看上面的图和下面的代码即可

6。

ImmutableBytesWritable 是一个16进制的一个字符串,看不懂 String abc=Bytes.toString(key.get());直接这样转一下就可以了,因为中文在hbase中是16进制存储
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: