您的位置：首页 > 产品设计 > UI/UE

[置顶] Spark快速入门指南(Quick Start Spark)

2014-06-20 10:23 501 查看

作者:过往记忆 | 新浪微博：左手牵右手TEL |
可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
博客地址：http://www.iteblog.com/
文章标题：《Spark快速入门指南(Quick Start Spark)》
本文链接：http://www.iteblog.com/archives/1040
Hadoop、Hive、Hbase、Flume等QQ交流群：138615359（已满），请加入新群：149892483
本博客的微信公共帐号为：iteblog_hadoop，欢迎大家关注。
如果你觉得本文对你有帮助，不妨分享一次，你的每次支持，都是对我最大的鼓励

欢迎关注微信公共帐号

　　这个文档只是简单的介绍如何快速地使用Spark。在下面的介绍中我将介绍如何通过Spark的交互式shell来使用API。Basics　　Spark shell提供一种简单的方式来学习它的API，同时也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。可以通过以下方式进入到Spark shell中。

1	# 本文原文地址：http: //www.iteblog.com/archives/1040

2	# 过往记忆，大量关于Hadoop、Spark等个人原创技术博客

4	./bin/spark-shell

　　Spark的一个基本抽象概念就是RDD，RDDs可以通过Hadoop InputFormats或者通过其他的RDDs通过transforming来得到。下面的例子是通过加载SPARK_HOME目录下的README文件来构建一个新的RDD

1	scala>textFilval textFile = sc.textFile( "file:///spark-bin-0.9.1/README.md" )

2	textFile:org.apache.spark.rdd.RDD[String]=MappedRDD[ 3 ]at textFile at <console>: 1

　　RDDs提供actions操作，通过它可以返回值；同时还提供 transformations操作，通过它可以返回一个新的RDD的引用。如下：

1	scala>textFile.count() // Number of items in this RDD

2	res1: Long = 108

4	scala>textFile.first() // First item in this RDD

5	res2: String = # Apache Spark

我们再试试transformations操作，下面的例子中我们通过使用filter transformation来一个新的RDD：

1	scala>val linesWithSpark = textFile.filter(line => line.contains( "Spark" ))

2	linesWithSpark: org.apache.spark.rdd.RDD[String] = FilteredRDD[ 4 ] at

3	filter at <console>: 14

我们将transformations操作和actions操作连起来操作：

1	scala>textFile.filter(line => line.contains( "Spark" )).count()

2	res3: Long = 15

更多关于RDD上面的操作　　RDD的transformations操作和actions操作可以用于更复杂的计算。下面的例子是找出README.md文件中单词数最多的行有多少个单词

1	scala>var size = textFile.map(line=>line.split( " " ).size)

2	scala>size.reduce((a, b)=> if (a > b) a else b)

3	res4: Long = 15

map函数负责将line按照空格分割，并得到这行单词的数量，而reduce函数将获取文件中单词数最多的行有多少个单词。map和reduce函数的参数是Scala的函数式编程风格。我们可以直接用Java里面的Math.max()函数，这样会使得这段代码更好理解

1	scala> import java.lang.Math

2	import java.lang.Math

4	scala>textFile.map(line => line.split( " " ).size).reduce((a, b)=>Math.max(a, b))

5	res10: Int = 15

我们比较熟悉的一种数据流模式是MapReduce，Spark可以很简单地实现MapReduce流

1	scala>val wordCounts = textFile.flatMap(line => line.split( " " ))

2	.map(word => (word, 1 )).reduceByKey((a, b) => a + b)

3	wordCounts: org.apache.spark.rdd.RDD[(String, Int)] =

4	MapPartitionsRDD[ 16 ] atreduceByKey at <console>: 15

在上面的代码中，我们结合了flatMap，map和reduceByKey等transformations 操作来计算文件中每个单词的数量，并生成一个(String, Int) pairs形式的RDD。为了计算单词的数量，我们可以用collect action来实现：

01	scala>wordCounts.collect()

02	res11: Array[(String, Int)]=Array(( "" , 120 ),(submitting, 1 ),(find, 1 ),(versions, 4 ),

03	((`./bin/pyspark`)., 1 ),(Regression, 1 ),(via, 2 ),(tests, 2 ),(open, 2 ),

04	(./bin/spark-shell, 1 ),(When, 1 ),(All, 1 ),(download, 1 ),(requires, 2 ),

05	(SPARK_YARN= true , 3 ),(Testing, 1 ),(take, 1 ),(project, 4 ),(no, 1 ),

06	(systems., 1 ),(file, 1 ),(<params>`., 1 ),(Or,, 1 ),(`<dependencies>`, 1 ),

07	(About, 1 ),(project's, 3 ),(`<master>`, 1 ),(programs, 2 ),(given., 1 ),(obtained, 1 ),

08	(sbt/sbt, 5 ),(artifact, 1 ),(SBT, 1 ),(local[ 2 ], 1 ),(not, 1 ),(runs., 1 ),(you, 5 ),

09	(building, 1 ),(Along, 1 ),(Lightning-Fast, 1 ),(built,, 1 ),(Hadoop,, 1 ),(use, 2 ),

10	(MRv2,, 1 ),(it, 2 ),(directory., 1 ),(overview, 1 ),( 2.10 ., 1 ),(The, 1 ),(easiest, 1 ),

11	(Note, 1 ),(guide](http: //spark.apache.org/docs/latest/configuration.html),1),

12	(setup, 1 ),( "org.apache.hadoop" , 1 ),...

Caching　　Spark可以将数据集存放在集群中的缓存中。这个在数据集经常被访问的场景下很有用，比如hot数据集的查询，或者像PageRank这样的需要迭代很多次的算法。作为一个简单的列子，下面是将我们自己的linesWithSpark dataset存入到缓存中：

1	scala>linesWithSpark.cache()

2	res12: org.apache.spark.rdd.RDD[String] =FilteredRDD[ 4 ] atfilter at <console>: 14

4	scala>linesWithSpark.count()

5	res13: Long = 15

7	scala>linesWithSpark.count()

8	res14: Long = 15

　　利用Spark来缓存100行的数据看起来有点傻，但是我们可以通过同样的函数来存储非常大的数据集，甚至这些数据集分布在几十或者几百台节点上。
　　本文翻译自Spark中的文档，本文地址：《Spark快速入门指南(Quick Start Spark)》：http://www.iteblog.com/archives/1040，过往记忆，大量关于Hadoop、Spark等个人原创技术博客本博客文章除特别声明，全部都是原创！

尊重原创，转载请注明：转载自过往记忆（http://www.iteblog.com/）
本文链接地址: 《Spark快速入门指南(Quick Start Spark)》（http://www.iteblog.com/archives/1040）
E-mail:wyphao.2007@163.com

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航