spark学习笔记一
2016-06-28 13:31
190 查看
一 . 运行spark shell的2种方式
1. scala spark-shell
2. python pyspark
二. spark访问hadoop hdfs文件
准备工作 file 上传到hdfs
hadoop fs -put ../test.log /input/test.log
spark shell里运行
val file = sc.textFile("hdfs://master.hadoop:9000/input/test.log")
file.count()//计算这个文件的行数
file.first()//获取第一行内容
word count实例spark shell版
val file = sc.textFile("hdfs://master.hadoop:9000/input/test.log")
val count = file.flatmap( line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
count.collect()
三. spark创建RDD方式
1. 从hadoop文件系统创建,例如hdfs
2. 从已存在RDD转换得到新的RDD
RDD有两类操作,分别时action和transformations
action执行一个动作,返回一个结果
例如: file.count() 返回结果: res1: Long = 2
transformations执行一个转换,返回一个新RDD
val temp = file.filter(line => line.contains("2016")) //返回一个新的RDD temp
1. scala spark-shell
2. python pyspark
二. spark访问hadoop hdfs文件
准备工作 file 上传到hdfs
hadoop fs -put ../test.log /input/test.log
spark shell里运行
val file = sc.textFile("hdfs://master.hadoop:9000/input/test.log")
file.count()//计算这个文件的行数
file.first()//获取第一行内容
word count实例spark shell版
val file = sc.textFile("hdfs://master.hadoop:9000/input/test.log")
val count = file.flatmap( line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
count.collect()
三. spark创建RDD方式
1. 从hadoop文件系统创建,例如hdfs
2. 从已存在RDD转换得到新的RDD
RDD有两类操作,分别时action和transformations
action执行一个动作,返回一个结果
例如: file.count() 返回结果: res1: Long = 2
transformations执行一个转换,返回一个新RDD
val temp = file.filter(line => line.contains("2016")) //返回一个新的RDD temp
相关文章推荐
- Git远程操作详解
- javaweb学习总结(二十七)——jsp简单标签开发案例和打包
- 期末课程设计之 c++操作mysql完成机票预订系统(vc 6.0配置mysql环境)
- AFNnetworking请求json数据
- Windows常用快捷键规整
- php基本知识
- JS中原型链的理解
- [改善Java代码]异常只为异常服务
- 线程安全
- javaweb学习总结(二十六)——jsp简单标签标签库开发(二)
- cucumber java从入门到精通(1)初体验
- hello Ehcache(Ehcache3.0)
- 安全规范
- 一天一条Linux指令-ls
- ubuntu下解压7z和rar
- javaweb学习总结(二十五)——jsp简单标签开发(一)
- 监听自定义的通知栏是否被点击了
- 学习doucker
- ping: sendto: Network is unreachable
- javaweb学习总结(二十四)——jsp传统标签开发