windows下搭建Spark,Pycharm配置Spark测试
2017-10-20 20:57
330 查看
windows下搭建Spark需要分3步:JDK、Spark、Hadoop的安装及配置
(一)JDK的安装及环境配置
JDK下载地址:JDK下载
点一下accept License Agreement出现下面的图片,然后选择合适的版本下载。
JDK的安装十分简单,这里不予赘述。安装结束后需要进行环境变量配置:
右击我的电脑-属性-高级系统设置-环境变量
添加JAVA_HOME变量和CLASSPATH变量:
变量名:JAVA_HOME 变量值:JDK的安装目录
我电脑上是C:\Program Files\Java\jdk1.8.0_151
变量名:CLASSPATH
变量值%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
在path中添加路径:
变量值:上一步中所安装的JDK目录下的bin文件夹路径名,我这里是:
C:\Program Files\Java\jdk1.8.0_151\bin;路径之间用分号;隔开
全部设置好之后,打开cmd(win+R),输入:java -version。如果能够输出java的版本信息(如下图),说明JDK配置正确。
(二)Spark的安装及环境配置
Spark下载:Spark下载
我这里选择的版本是:spark-1.6.0-bin-hadoop2.6.tgz
Spark的环境变量配置:
变量名:SPARK_HOME 变量值:Spark的安装目录,我这里是I:\spark
添加path路径:I:\spark\bin;I:\spark\sbin;
(三)Hadoop的安装及环境配置
Hadoop下载:Hadoop下载
下载后解压即可。
由于版本问题需要替换解压后的bin文件中的winutils.exe。替换文件下载:winutils.exe下载
下载之后将该文件复制到hadoop\bin文件里,替换掉原来的winutils.exe。
添加环境变量HADOOP_HOME:
变量名:HADOOP_HOME 变量值:hadoop文件的安装目录
添加path路径:我这里是I:\hadoop\bin
(四)Python的下载安装
由于spark不支持python3.6,所以我下载的是python3.5
python3.5下载:python下载
选择合适的python下载安装(过程略,可自行百度)
以上步骤全部完成之后,打开cmd(win+R)输入:pyspark。出现下图则说明spark安装成功。
(五)Pycharm配置Spark
Pycharm的下载:Pycharm下载
安装过程这边不予赘述,请自行百度。
Pycharm安装结束后,配置Spark。可参考这篇博文:Pycharm配置Spark
配置结束后可通过一个小程序测试下是否配置成功,代码如下:
from pyspark import SparkContext
import os
import sys
os.environ[‘SPARK_HOME’] = “I:\spark”
os.environ[‘JAVA_HOME’] = “C:\Program Files\Java\jdk1.8.0_151”
sys.path.append(“I:\spark\python”)
sys.path.append(“I:\spark\lib\py4j-0.9-src.zip”)
sc = SparkContext(‘local’)
doc = sc.parallelize([[‘a’,’b’,’c’],[‘b’,’d’,’d’]])
words = doc.flatMap(lambda d:d).distinct().collect()
word_dict = {w:i for w,i in zip(words,range(len(words)))}
word_dict_b = sc.broadcast(word_dict)
def wordCountPerDoc(d):
dict={}
wd = word_dict_b.value
for w in d:
if wd[w] in dict:
dict[wd[w]] +=1
else:
dict[wd[w]] = 1
return dict
print(doc.map(wordCountPerDoc).collect())
print(“successful”)
运行结果如下图所示,则表明pycharm配置spark成功
本人也是第一次接触spark,搭建环境的时候也走了不少弯路,花了不少时间,所以写下这篇文章,希望可以帮助到其他人。
(一)JDK的安装及环境配置
JDK下载地址:JDK下载
点一下accept License Agreement出现下面的图片,然后选择合适的版本下载。
JDK的安装十分简单,这里不予赘述。安装结束后需要进行环境变量配置:
右击我的电脑-属性-高级系统设置-环境变量
添加JAVA_HOME变量和CLASSPATH变量:
变量名:JAVA_HOME 变量值:JDK的安装目录
我电脑上是C:\Program Files\Java\jdk1.8.0_151
变量名:CLASSPATH
变量值%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
在path中添加路径:
变量值:上一步中所安装的JDK目录下的bin文件夹路径名,我这里是:
C:\Program Files\Java\jdk1.8.0_151\bin;路径之间用分号;隔开
全部设置好之后,打开cmd(win+R),输入:java -version。如果能够输出java的版本信息(如下图),说明JDK配置正确。
(二)Spark的安装及环境配置
Spark下载:Spark下载
我这里选择的版本是:spark-1.6.0-bin-hadoop2.6.tgz
Spark的环境变量配置:
变量名:SPARK_HOME 变量值:Spark的安装目录,我这里是I:\spark
添加path路径:I:\spark\bin;I:\spark\sbin;
(三)Hadoop的安装及环境配置
Hadoop下载:Hadoop下载
下载后解压即可。
由于版本问题需要替换解压后的bin文件中的winutils.exe。替换文件下载:winutils.exe下载
下载之后将该文件复制到hadoop\bin文件里,替换掉原来的winutils.exe。
添加环境变量HADOOP_HOME:
变量名:HADOOP_HOME 变量值:hadoop文件的安装目录
添加path路径:我这里是I:\hadoop\bin
(四)Python的下载安装
由于spark不支持python3.6,所以我下载的是python3.5
python3.5下载:python下载
选择合适的python下载安装(过程略,可自行百度)
以上步骤全部完成之后,打开cmd(win+R)输入:pyspark。出现下图则说明spark安装成功。
(五)Pycharm配置Spark
Pycharm的下载:Pycharm下载
安装过程这边不予赘述,请自行百度。
Pycharm安装结束后,配置Spark。可参考这篇博文:Pycharm配置Spark
配置结束后可通过一个小程序测试下是否配置成功,代码如下:
from pyspark import SparkContext
import os
import sys
os.environ[‘SPARK_HOME’] = “I:\spark”
os.environ[‘JAVA_HOME’] = “C:\Program Files\Java\jdk1.8.0_151”
sys.path.append(“I:\spark\python”)
sys.path.append(“I:\spark\lib\py4j-0.9-src.zip”)
sc = SparkContext(‘local’)
doc = sc.parallelize([[‘a’,’b’,’c’],[‘b’,’d’,’d’]])
words = doc.flatMap(lambda d:d).distinct().collect()
word_dict = {w:i for w,i in zip(words,range(len(words)))}
word_dict_b = sc.broadcast(word_dict)
def wordCountPerDoc(d):
dict={}
wd = word_dict_b.value
for w in d:
if wd[w] in dict:
dict[wd[w]] +=1
else:
dict[wd[w]] = 1
return dict
print(doc.map(wordCountPerDoc).collect())
print(“successful”)
运行结果如下图所示,则表明pycharm配置spark成功
本人也是第一次接触spark,搭建环境的时候也走了不少弯路,花了不少时间,所以写下这篇文章,希望可以帮助到其他人。
相关文章推荐
- Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
- window7下在pycharm上配置pyspark 搭建spark测试环境
- Spark 集群搭建从零开始之3 Spark Standalone集群安装、配置与测试
- 在windows上pycharm配置spark环境
- Spark+Python+Pycharm在Windows下的配置
- Windows+Pycharm+Spark环境配置
- 搭建Spark的maven本地windows开发环境以及测试
- 连接远程linux spark 配置windows 下pycharm开发环境
- Spark+Python+Pycharm在Windows下的配置
- 大数据Spark “蘑菇云”行动Hadoop实战速成之路第29课:Hadoop架构详解及Hadoop集群搭建、配置和测试实战
- xmpp 服务器配置 open fire for windows 及 spark 测试
- windows搭建spark运行环境(windows scala,hadoop,spark安装,idea使用配置等)
- 在windows中搭建spark单机版
- Spark开发环境配置(windows/Intellij IDEA 篇)
- PHP环境搭建:Windows 7下安装配置PHP+Apache+Mysql环境教程
- windows下的环境搭建配置redis
- sparkSQL1.1入门之五:测试环境之搭建
- win环境20分钟搭建php+sql服务器Apache+php+mysql在windows下的安装与配置图解
- PHP环境搭建:Windows 7下安装配置PHP+Apache+Mysql
- Windows 网络服务架构系列课程详解(一) ----DHCP服务器的搭建与配置