您的位置:首页 > 其它

spark【例子】同类合并、计算(主要使用groupByKey)

2017-06-28 20:03 295 查看
例子描述:

【同类合并、计算】

主要为两部分,将同类的数据分组归纳到一起,并将分组后的数据进行简单数学计算。

难点在于怎么去理解groupBy和groupByKey

原始数据

2010-05-04 12:50,10,10,10

2010-05-05 13:50,20,20,20

2010-05-06 14:50,30,30,30

2010-05-05 13:50,20,20,20

2010-05-06 14:50,30,30,30

2010-05-04 12:50,10,10,10

2010-05-04 11:50,10,10,10

结果数据

2010-05-05 13:50,40,40,40

2010-05-04 12:50,20,20,20

2010-05-06 14:50,60,60,60

2010-05-04 11:50,10,10,10

代码片段:

/* 同类合并、计算 */

val source = Source.fromFile("E:test.txt").getLines.toArray
val sourceRDD = sc.parallelize(source)                                  /* spark单机读取数据 */
sourceRDD.map {
line =>
val lines = line.split(",")                                         /* 拆分数据 */
(s"${lines(0)}", s"${lines(1)},${lines(2)},${lines(3)}")            /* 找出同样的数据为K,需要进行计算的为V,拼成map */
}.groupByKey.map {                                                      /* 分组,最重要的就是这,同类的数据分组到一起,后面只需要计算V了 */
case (k, v) =>
var a, b, c = 0                                                     /* 定义几个存数据的变量,恩,这很java,一般scala中很少见到var */
v.foreach {                                                         /* 遍历需要计算的V  */
x =>
val r = x.split(",")                                            /* 将V拆分 */
a += r(0).toInt                                                 /* 计算 */
b += r(1).toInt
c += r(2).toInt
}
s"$k,$a,$b,$c"                                                      /* 拼字符串,返回数据 */
}.foreach(println)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: