Spark 简单实例(基本操作)
2015-07-12 21:34
639 查看
目录[-]
1、准备文件
2、加载文件
3、显示一行
4、函数运用
(1)map
(2)collecct
(3)filter
(4)flatMap
(5)union
(6) join
(7)lookup
(8)groupByKey
(9)sortByKey
?
?
输出
?
?
输出
?
该命令表明:spark加载文件是按行加载,每行为一个字符串,这样一个RDD[String]字符串数组就可以将整个文件存到内存中。
(1)map
?
这里的命令行:将每行的字符串转换为相应的一个double数组,这样全部的数据将可以用一个二维的数组 RDD[Array[Double]]来表示了
(2)collecct
?
(3)filter
?
(4)flatMap
?
(5)union
?
(6) join
?
(7)lookup
?
(8)groupByKey
?
(9)sortByKey
?
升序的话,sortByKey(true)
1、准备文件
2、加载文件
3、显示一行
4、函数运用
(1)map
(2)collecct
(3)filter
(4)flatMap
(5)union
(6) join
(7)lookup
(8)groupByKey
(9)sortByKey
1、准备文件
?
2、加载文件
??
3、显示一行
??
4、函数运用
(1)map
?
这里的命令行:将每行的字符串转换为相应的一个double数组,这样全部的数据将可以用一个二维的数组 RDD[Array[Double]]来表示了
(2)collecct
?
(3)filter
?
(4)flatMap
?
(5)union
?
(6) join
?
(7)lookup
?
(8)groupByKey
?
(9)sortByKey
?
相关文章推荐
- mybatis 并发问题解决,参考hibernate
- AudioService.createStreamStates()
- Android Studio 显示函数用法提示悬浮窗,解决fetching documentation问题
- 面试题7两个栈实现一个队列和两个队列实现一个栈
- 盗墓笔记第一季全(12集)下载地址
- android MotionEvent中getX()和getRawX()的区别
- DEVENV CYGWIN MINGW特点总结
- 基于CoreText的基础排版引擎之不带图片的排版引擎
- Java反射机制
- C#方法参数传递机制
- 哈夫曼编码算法思想总结
- bzoj1146: [CTSC2008]网络管理Network 树套树
- SOCKET编程
- 临时数据的存储
- c# ListBox绑定对象时删除数据的问题
- win7下python执行cmd命令中exe崩溃的处理
- Netty系列之Netty百万级推送服务设计要点
- linux块设备驱动之请求过程剖析
- 算法二之子集和数问题
- Cocos2d-x发展---更改父的颜色、透明度的子节点上