您的位置：首页 > 其它

Windows Spark开发环境部署

2017-05-14 09:38 309 查看

Windows下单机安装Spark开发环境

机器：windows 10 64位。

因Spark支持scala、java、python等语言，所以尝试安装了不同语言环境下的spark开发环境。

1、jdk1.8、Python 3.5的安装

1.1 jdk1.8的安装

安装oracle下的jdk，我安装的是jdk 1.8，安装完新建系统环境变量JAVA_HOME，变量值为“D:\Program Files\Java\jdk1.8.0_121”，视自己安装路径而定。

同时在系统环境变量中添加变量Path下添加D:\Program Files\Java\jdk1.8.0_121\bin和D:\Program Files\Java\jre8\bin。

之后再cmd命令行查看是否安装成功：java -version

1.2 Python 3.6.0 的安装

我是直接安装的集成开发包Anaconda3;同样，需要将安装路径添加到path中；C:\Users\Denius\Miniconda3和C:\Users\Denius\Miniconda3\Scripts

查看是否安装成功：

2、Spark环境配置

2.1 安装spark

去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本，我下载的是spark-1.6.0-bin-hadoop2.6.tgz，spark版本是1.6，对应的hadoop版本是2.6

解压下载的文件，假设解压目录为：D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量，同时新建SPARK_HOME变量，变量值为：D:\spark-1.6.0-bin-hadoop2.6

2.2 Hadoop工具包安装

spark是基于hadoop之上的，运行过程中会调用相关hadoop库，如果没配置相关hadoop运行环境，会提示相关出错信息，虽然也不影响运行，但是这里还是把hadoop相关库也配置好吧。

去下载hadoop 2.7编译好的包，我下载的是hadoop-2.7.0.tar.gz；

解压下载的文件夹，将相关库添加到系统Path变量中：D:\hadoop-2.7.0\bin；同时新建HADOOP_HOME变量，变量值为：D:\hadoop-2.7.0；

2.3 安装py4j

将spark目录下的pyspark文件夹（D:\spark-1.6.0-bin-hadoop2.7\python\pyspark）复制到python安装目录D:\Python27\Lib\site-packages里;

在cmd命令行下运行pyspark，然后使用cd命令，进入目录D:\python27\Scripts;运行pip install py4j安装py4j库

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航