您的位置：首页 > 编程语言 > Python开发

Spark ML 分布式机器学习（一）：iPython+spark安装与环境变量配置

2017-04-09 22:28 429 查看

Spark ML 分布式机器学习（一）：iPython+spark安装与环境变量配置

—– 来自“慢慢变强的me”.2017-04-09

本人是DM领域里菜鸟一枚，原热衷于sklearn进行机器学习，经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习，经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上，一直喜欢Python的我，spark也有相应的API–pyspark shell。工欲善其事必先利其器，经过网上博客等文章的查询，我在这篇文章里主要写了Windows7上的VMware Workstation虚拟机Ubuntu14.04中配置Anaconda（Python2.7）以支持Saprk2.0（Pyspark)安装详细步骤，以为搭建一个独立的属于自己习惯的环境，以备自己以后更好的数据挖掘及机器学习，如有幸被其他同学看到还请指点不足之处，如有不幸带来困扰还请评论于我或私信于我（知乎：慢慢变强的me；CSDN：慢慢变强的me）。最后，本文纯属个人编写，转载请注明出处。

VM虚拟机Ubuntu14.04的环境搭建

安装Aanconda（Python2.7）

安装Java SDK

安装Spark2.0

配置环境变量

一、VM虚拟机Ubuntu14.04的环境搭建（略）

二、安装Anaconda（Python2.7）

根据自己需要下载anaconda版本：下载网址

（1）利用wget下载Anaconda

（2）在Terminal里输入：

bash Anaconda2-4.3.1-Linux-x86_64.sh

点击回车即可。

（3）一路点击回车，直到出现：

Do you approve the license terms? [yes|no]
>>>
Please answer 'yes' or 'no':

然后输入

yes

。

（4）点击回车，等一会儿出现：Thank you for installing Anaconda2!####安装成功！（其实，没有成功，我在安装的过程中没有提示我更改环境变量，然后我在安装好Python后又进行了环境变量配置）

（5）在Terminal里输入：

sudo gedit /etc/profile

打开profile文件，在最后面增加一行代码：

export PATH=/home/pysml/anaconda2/bin:$PATH,

其中，/home/pysml/anaconda2是我anaconda2安装路径。

（6）保存profile，重启ubuntu，输入：python 进行测试出现以下即安装成功。

三、安装Java SDK(安装的是java9)

（1）只需要在Terminal输入：

sudo apt-get install software-properties-common

（2）

sudo add-apt-repository ppa:webupd8team/java

（3）

sudo apt-get update

（4）

sudo apt-get install oracle-java9-installer

（5）再输入：

java -version

，出现以下即安装成功。

四、安装spark2.0

根据自己需要选择spark版本，下载网址

如下是本人所选择的版本：

选择Spark版本： Spark2.0.2（发布于2016.11.14）;

选择下载包的类型：Pre-built for Hadoop 2.7 and later；

选择下载类型： Direct Download；

对应spark压缩包： spark-2.0.2-bin-hadoop2.7.tgz

（1）下载上述选择的spark。wget以下就链接OK。

http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz

（2）解压spark-2.0.2-bin-hadoop2.7.tgz。代码为：

tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz。

（3）因为解压后会生成一个spark-2.0.2-bin-hadoop2.7文件夹，为了方便可以去解压的存放路径手动改成名为spark的文件夹。

（4）然后进行配置环境变量：进入profile文件，在其最后增加以下代码：（进入profile的文件代码为：

sudo gedit /etc/profile

）

export ANACONDA_ROOT=~/anaconda2
PYSPARK_DRIVER_PYTHON=jupyter ./bin/pyspark

（5）其实这步骤就可以验证spark是否安装成功。但比较繁锁：

cd ~/spark

./bin/pyspark

（6）为了不要每次都要进行cd进入文件里调用pyspark，然后在.bashrc文件里进行spark的环境变量配置。和profile一样，进入.bashrc文件在其最后增加以下代码:（进入.bashrc文件的代码：

sudo gedit ~/.bashrc

把下面的代码增加完然后再输入：

source ~/.bashrc

）

export PATH=$PATH:/home/pysml/spark/bin (/home/pysml/spark表示spark的路径，根据自己的路径进行更换)

（7）直接在Terminal里输入：pyspark就直接运行了。出现一个以下标志说明安装成功了，下面出现>>>，说明进入了Python里了。

（8）打开pyspark是Python，但想用ipython进行编程。

进入.bashrc文件在其最后增加以下代码:（进入.bashrc文件的代码：

sudo gedit ~/.bashrc

把下面的代码增加完然后再输入：

source ~/.bashrc

）

export PATH=”/home/pysml/anaconda2/bin:$PATH”

export PYSPARK_DRIVER_PYTHON=ipython

（9）在Terminal里输入：pyspark，出现下图#####spark里配置ipython成功。

注：如有幸被其他同学看到还请指点不足之处，如有不幸带来困扰还请评论于我或私信于我。最后，本文纯属个人编写，转载请注明出处

参考链接：

1、http://jingyan.baidu.com/article/20b68a8893ae50796cec62b4.html

2、http://blog.csdn.net/duxu24/article/details/53587451

3、http://blog.csdn.net/dst1213/article/details/52107915

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航