spark中flatMap函数用法--spark学习(基础)
2016-02-25 08:54
381 查看
说明
在spark中map函数和flatMap函数是两个比较常用的函数。其中map:对集合中每个元素进行操作。
flatMap:对集合中每个元素进行操作然后再扁平化。
理解扁平化可以举个简单例子
val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.flatmap(x=>(x._1+x._2)).foreach(println)
输出结果为
A 1 B 2 C 3
如果用map
val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.map(x=>(x._1+x._2)).foreach(println)
输出结果
A1 B2 C3
所以flatMap扁平话意思大概就是先用了一次map之后对全部数据再一次map。
实际使用场景
这个场景是我曾经在写代码过程中遇到的难题,在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串,则(A,B),(C,D),(D,B)相邻字符对出现一次,(B,C)出现两次。如有数据
A;B;C;D;B;D;C B;D;A;E;D;C A;B
统计相邻字符对出现次数代码如下
data.map(_.split(";")).flatMap(x=>{ for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1) }).reduceByKey(_+_).foreach(println)
输出结果为
(A,E,1) (E,D,1) (D,A,1) (C,D,1) (B,C,1) (B,D,2) (D,C,2) (D,B,1) (A,B,2)
此例子就是充分运用了flatMap的扁平化功能。
相关文章推荐
- 04-08移动字母
- 探索式测试中的几种误区
- 二进制转换及位运算
- 提高软件质量的几大法宝
- tomcat7链接mysql
- KJFrame使用注意项
- Android-使用java代码实现界面
- Android中ListView结合CheckBox判断选中项
- webService、servlet和RMI的区别
- 详解SPI中的极性CPOL和相位CPHA
- java使用iText生成pdf表格
- 原生javascript实现addClass,removeClass,hasClass函数
- java随机抽取指定范围内不重复的n个数
- 数据结构之栈和队列
- 原 iOS中的内存管理(下)
- Android 带checkbox的listView 实现多选,全选,反选
- 浏览器jsp、html之间的关系
- Windows中使用Java生成Excel文件并插入图片的方法
- Linux 标准库下的unistd.h
- 自定义getElementByClass