您的位置:首页 > 其它

Spark函数讲解:collectAsMap

2016-07-13 17:08 246 查看
/**
* User: 过往记忆
* Date: 15-03-16
* Time: 上午09:24
* bolg: http://www.iteblog.com * 本文地址:http://www.iteblog.com/archives/1289
* 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货
* 过往记忆博客微信公共帐号:iteblog_hadoop
*/
scala> val data = sc.parallelize(List((1, "www"), (1, "iteblog"), (1, "com"),
    (2, "bbs"), (2, "iteblog"), (2, "com"), (3, "good")))
data: org.apache.spark.rdd.RDD[(Int, String)] =
    ParallelCollectionRDD[26] at parallelize at <console>:12

scala> data.collectAsMap
res28: scala.collection.Map[Int,String] = Map(2 -> com, 1 -> com, 3 -> good)


从结果我们可以看出,如果RDD中同一个Key中存在多个Value,那么后面的Value将会把前面的Value覆盖,最终得到的结果就是Key唯一,而且对应一个Value。

本文转载自:http://www.iteblog.com/archives/1289
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息