您的位置:首页 > 其它

Windows Spark开发环境部署

2017-05-14 09:38 309 查看

Windows下单机安装Spark开发环境

机器:windows 10 64位。

因Spark支持scala、java、python等语言,所以尝试安装了不同语言环境下的spark开发环境。

1、jdk1.8、Python 3.5的安装

1.1 jdk1.8的安装

安装oracle下的jdk,我安装的是jdk 1.8,安装完新建系统环境变量JAVA_HOME,变量值为“D:\Program Files\Java\jdk1.8.0_121”,视自己安装路径而定。

同时在系统环境变量中添加变量Path下添加D:\Program Files\Java\jdk1.8.0_121\bin和D:\Program Files\Java\jre8\bin。

之后再cmd命令行查看是否安装成功:java -version



1.2 Python 3.6.0 的安装

我是直接安装的集成开发包Anaconda3;同样,需要将安装路径添加到path中;C:\Users\Denius\Miniconda3和C:\Users\Denius\Miniconda3\Scripts

查看是否安装成功:



2、Spark环境配置

2.1 安装spark

http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应的hadoop版本是2.6

解压下载的文件,假设解压 目录为:D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6

2.2 Hadoop工具包安装

spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行,但是这里还是把hadoop相关库也配置好吧。

去下载hadoop 2.7编译好的包,我下载的是hadoop-2.7.0.tar.gz;

解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.7.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.7.0;

2.3 安装py4j

将spark目录下的pyspark文件夹(D:\spark-1.6.0-bin-hadoop2.7\python\pyspark)复制到python安装目录D:\Python27\Lib\site-packages里;

在cmd命令行下运行pyspark,然后使用cd命令,进入目录D:\python27\Scripts;运行pip install py4j安装py4j库
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: