您的位置：首页 > 其它

Spark函数讲解：collectAsMap

2016-07-13 17:08 246 查看

/**
* User: 过往记忆
* Date: 15-03-16
* Time: 上午09:24
* bolg: http://www.iteblog.com * 本文地址：http://www.iteblog.com/archives/1289
* 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货
* 过往记忆博客微信公共帐号：iteblog_hadoop
*/
scala> val data = sc.parallelize(List((1, "www"), (1, "iteblog"), (1, "com"),
　　　　(2, "bbs"), (2, "iteblog"), (2, "com"), (3, "good")))
data: org.apache.spark.rdd.RDD[(Int, String)] =
　　　　ParallelCollectionRDD[26] at parallelize at <console>:12

scala> data.collectAsMap
res28: scala.collection.Map[Int,String] = Map(2 -> com, 1 -> com, 3 -> good)

从结果我们可以看出，如果RDD中同一个Key中存在多个Value，那么后面的Value将会把前面的Value覆盖，最终得到的结果就是Key唯一，而且对应一个Value。

本文转载自：http://www.iteblog.com/archives/1289

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark 函数讲解 collectAsMap

相关文章推荐

新的分享

章节导航