您的位置:首页 > 编程语言 > Java开发

windows下搭建Spark,Pycharm配置Spark测试

2017-10-20 20:57 330 查看
windows下搭建Spark需要分3步:JDK、Spark、Hadoop的安装及配置

(一)JDK的安装及环境配置

JDK下载地址:JDK下载

点一下accept License Agreement出现下面的图片,然后选择合适的版本下载。



JDK的安装十分简单,这里不予赘述。安装结束后需要进行环境变量配置:

右击我的电脑-属性-高级系统设置-环境变量



添加JAVA_HOME变量和CLASSPATH变量:



变量名:JAVA_HOME 变量值:JDK的安装目录

我电脑上是C:\Program Files\Java\jdk1.8.0_151



变量名:CLASSPATH

变量值%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

在path中添加路径:



变量值:上一步中所安装的JDK目录下的bin文件夹路径名,我这里是:

C:\Program Files\Java\jdk1.8.0_151\bin;路径之间用分号;隔开

全部设置好之后,打开cmd(win+R),输入:java -version。如果能够输出java的版本信息(如下图),说明JDK配置正确。



(二)Spark的安装及环境配置

Spark下载:Spark下载

我这里选择的版本是:spark-1.6.0-bin-hadoop2.6.tgz



Spark的环境变量配置:



变量名:SPARK_HOME 变量值:Spark的安装目录,我这里是I:\spark

添加path路径:I:\spark\bin;I:\spark\sbin;



(三)Hadoop的安装及环境配置

Hadoop下载:Hadoop下载



下载后解压即可。

由于版本问题需要替换解压后的bin文件中的winutils.exe。替换文件下载:winutils.exe下载

下载之后将该文件复制到hadoop\bin文件里,替换掉原来的winutils.exe。

添加环境变量HADOOP_HOME:



变量名:HADOOP_HOME 变量值:hadoop文件的安装目录

添加path路径:我这里是I:\hadoop\bin



(四)Python的下载安装

由于spark不支持python3.6,所以我下载的是python3.5

python3.5下载:python下载

选择合适的python下载安装(过程略,可自行百度)

以上步骤全部完成之后,打开cmd(win+R)输入:pyspark。出现下图则说明spark安装成功。



(五)Pycharm配置Spark

Pycharm的下载:Pycharm下载

安装过程这边不予赘述,请自行百度。

Pycharm安装结束后,配置Spark。可参考这篇博文:Pycharm配置Spark

配置结束后可通过一个小程序测试下是否配置成功,代码如下:

from pyspark import SparkContext

import os

import sys

os.environ[‘SPARK_HOME’] = “I:\spark”

os.environ[‘JAVA_HOME’] = “C:\Program Files\Java\jdk1.8.0_151”

sys.path.append(“I:\spark\python”)

sys.path.append(“I:\spark\lib\py4j-0.9-src.zip”)

sc = SparkContext(‘local’)

doc = sc.parallelize([[‘a’,’b’,’c’],[‘b’,’d’,’d’]])

words = doc.flatMap(lambda d:d).distinct().collect()

word_dict = {w:i for w,i in zip(words,range(len(words)))}

word_dict_b = sc.broadcast(word_dict)

def wordCountPerDoc(d):

dict={}

wd = word_dict_b.value

for w in d:

if wd[w] in dict:

dict[wd[w]] +=1

else:

dict[wd[w]] = 1

return dict

print(doc.map(wordCountPerDoc).collect())

print(“successful”)

运行结果如下图所示,则表明pycharm配置spark成功



本人也是第一次接触spark,搭建环境的时候也走了不少弯路,花了不少时间,所以写下这篇文章,希望可以帮助到其他人。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  windows spark hadoop jdk