您的位置:首页 > 其它

spark学习笔记一

2016-06-28 13:31 190 查看
一 . 运行spark shell的2种方式

1. scala spark-shell

2. python  pyspark

二. spark访问hadoop hdfs文件

准备工作 file 上传到hdfs

hadoop fs -put ../test.log /input/test.log

spark shell里运行

 val file = sc.textFile("hdfs://master.hadoop:9000/input/test.log")

file.count()//计算这个文件的行数

file.first()//获取第一行内容

word count实例spark shell版

val file = sc.textFile("hdfs://master.hadoop:9000/input/test.log")

val count = file.flatmap( line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

count.collect()

三. spark创建RDD方式

1. 从hadoop文件系统创建,例如hdfs

2. 从已存在RDD转换得到新的RDD

RDD有两类操作,分别时action和transformations

action执行一个动作,返回一个结果

例如: file.count()   返回结果: res1: Long = 2

transformations执行一个转换,返回一个新RDD

val temp = file.filter(line => line.contains("2016")) //返回一个新的RDD temp
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: