您的位置：首页 > 其它

spark学习笔记一

2016-06-28 13:31 190 查看

一 . 运行spark shell的2种方式

1. scala spark-shell

2. python pyspark

二. spark访问hadoop hdfs文件

准备工作 file 上传到hdfs

hadoop fs -put ../test.log /input/test.log

spark shell里运行

val file = sc.textFile("hdfs://master.hadoop:9000/input/test.log")

file.count()//计算这个文件的行数

file.first()//获取第一行内容

word count实例spark shell版

val file = sc.textFile("hdfs://master.hadoop:9000/input/test.log")

val count = file.flatmap( line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

count.collect()

三. spark创建RDD方式

1. 从hadoop文件系统创建,例如hdfs

2. 从已存在RDD转换得到新的RDD

RDD有两类操作,分别时action和transformations

action执行一个动作,返回一个结果

例如: file.count() 返回结果: res1: Long = 2

transformations执行一个转换,返回一个新RDD

val temp = file.filter(line => line.contains("2016")) //返回一个新的RDD temp

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航