您的位置：首页 > 其它

Windows上配置Spark(2)：导入Spark

2015-12-11 23:13 369 查看

接着我的上一篇来咯

一、新建项目

打开Intellij IDEA，新建项目：

图1

根据你自己的需要选择non-sbt，或scala之类的（这里我也不甚明了）。然后取名字、确定存放路径等

二、配置

1、添加Scala SDK

这里假设已经按照我上一篇博客所说，安装了scalaxxx.msi，并配置好了环境变量。
建好项目后，点击“File”–>“Project Structure”，出现窗口后，点击左侧“Project Settings”下的“Libraries”，点击绿色的“+”下的“Scala SDK”：

图2

选择上你安装scala的路径：

图3

2、添加jdk

当然，前提是你已经装好了jdk。具体装法百度咯。然后点击“Platform Settings”下的“SDKs”，点击“+”下的“JDK”：

图4

选择已经安装配置好的jdk路径：

图5

一路点击“OK”。

3、添加Spark的jar包

先下载两个包，并解压，如图6红框所示。然后将“hadoop_dll2.6.0”文件夹下的所有文件都拷贝到“spark-1.5.1-bin-hadoop2.6/bin/”下：

图6

同样，在“Project Settings”下的“Libraries”，点击“+”下的“Java“：

图7

选择刚刚解压的“spark-1.5.1-bin-hadoop2.6”下的“lib”中的jar包：

图8

一路点击“OK” 。

4、新建scala文件

然后，在当前的Project下新建一个“scala class”：

图9

然后开始写scala代码，我这里直接用的是“spark-1.5.1-bin-hadoop2.6”下“example”文件夹里的“SparkPi.scala”这个文件。并做如下修改：

1）语句“val conf = new SparkConf().setAppName(“Spark Pi”)”后添加“.setMaster(“local[4]”)”，这是指定用本机的4个核当做Spark集群的4个节点，当然也可以改成服务器地址，比如我师弟就改成“.setMaster(“spark://10.0.5.217:7077”)”；

2）添加语句“.setJars(List(“E:\Spark\Projects\out\artifacts\Projects_jar\Projects.jar”))”，这是指定程序jar包的位置，此位置在添加程序jar包可以看到，如图10所示。

修改后的代码如下所示：

package test

/**
* Created by zwx on 5/1/15.
*/
import scala.math.random

import org.apache.spark._

/** Computes an approximation to pi */
object SparkPi {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("Spark Pi")
.setMaster("spark://10.0.5.217:7077")
.setJars(List("E:\Spark\Projects\out\artifacts\Projects_jar\Projects.jar"))

val spark = new SparkContext(conf)
val slices = if (args.length > 0) args(0).toInt else 2
val n = 100000 * slices
val count = spark.parallelize(1 to n, slices).map { i =>
val x = random * 2 - 1
val y = random * 2 - 1
if (x * x + y * y < 1) 1 else 0
}.reduce(_ + _)
println ("Pi is roughly " + 4.0 * count / n)
spark.stop()
}

好吧，我承认这段代码是copy师弟的，他写的比我全一些，直接贴他的了。。在此给师弟的博客打个广告http://blog.csdn.net/Camu7s/article/category/2877965，资深程序帅哥一枚哦~
不过上面的.setJars()里头的路径是怎么得到的还要说一下。
当已经建好一个scala文件后，我这儿是sparkpi.scala，如下图：