您的位置:首页 > 编程语言 > Python开发

Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置

2017-04-09 22:28 429 查看
Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置

—– 来自“慢慢变强的me”.2017-04-09

本人是DM领域里菜鸟一枚,原热衷于sklearn进行机器学习,经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习,经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上,一直喜欢Python的我,spark也有相应的API–pyspark shell。工欲善其事必先利其器,经过网上博客等文章的查询,我在这篇文章里主要写了Windows7上的VMware Workstation虚拟机Ubuntu14.04中配置Anaconda(Python2.7)以支持Saprk2.0(Pyspark)安装详细步骤,以为搭建一个独立的属于自己习惯的环境,以备自己以后更好的数据挖掘及机器学习,如有幸被其他同学看到还请指点不足之处,如有不幸带来困扰还请评论于我或私信于我(知乎:慢慢变强的me;CSDN:慢慢变强的me)。最后,本文纯属个人编写,转载请注明出处。

VM虚拟机Ubuntu14.04的环境搭建

安装Aanconda(Python2.7)

安装Java SDK

安装Spark2.0

配置环境变量

一、VM虚拟机Ubuntu14.04的环境搭建(略)

二、安装Anaconda(Python2.7)

根据自己需要下载anaconda版本:下载网址

(1)利用wget下载Anaconda



(2)在Terminal里输入:
bash Anaconda2-4.3.1-Linux-x86_64.sh
点击回车即可。

(3)一路点击回车,直到出现:

Do you approve the license terms? [yes|no]
>>>
Please answer 'yes' or 'no':


然后输入
yes


(4)点击回车,等一会儿出现:Thank you for installing Anaconda2!####安装成功!(其实,没有成功,我在安装的过程中没有提示我更改环境变量,然后我在安装好Python后又进行了环境变量配置)

(5)在Terminal里输入:
sudo gedit /etc/profile
打开profile文件,在最后面增加一行代码:
export PATH=/home/pysml/anaconda2/bin:$PATH,
其中,/home/pysml/anaconda2是我anaconda2安装路径。

(6)保存profile,重启ubuntu,输入:python 进行测试出现以下即安装成功。



三、安装Java SDK(安装的是java9)

(1)只需要在Terminal输入:
sudo apt-get install software-properties-common


(2)
sudo add-apt-repository ppa:webupd8team/java


(3)
sudo apt-get update


(4)
sudo apt-get install oracle-java9-installer


(5)再输入:
java -version
,出现以下即安装成功。



四、安装spark2.0

根据自己需要选择spark版本,下载网址

如下是本人所选择的版本:

选择Spark版本: Spark2.0.2(发布于2016.11.14);

选择下载包的类型:Pre-built for Hadoop 2.7 and later;

选择下载类型: Direct Download;

对应spark压缩包: spark-2.0.2-bin-hadoop2.7.tgz

(1)下载上述选择的spark。wget以下就链接OK。

http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz


(2)解压spark-2.0.2-bin-hadoop2.7.tgz。代码为:
tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz。


(3)因为解压后会生成一个spark-2.0.2-bin-hadoop2.7文件夹,为了方便可以去解压的存放路径手动改成名为spark的文件夹。

(4)然后进行配置环境变量:进入profile文件,在其最后增加以下代码:(进入profile的文件代码为:
sudo gedit /etc/profile


export ANACONDA_ROOT=~/anaconda2
PYSPARK_DRIVER_PYTHON=jupyter ./bin/pyspark


(5)其实这步骤就可以验证spark是否安装成功。但比较繁锁:

cd ~/spark

./bin/pyspark

(6)为了不要每次都要进行cd进入文件里调用pyspark,然后在.bashrc文件里进行spark的环境变量配置。和profile一样,进入.bashrc文件在其最后增加以下代码:(进入.bashrc文件的代码:
sudo gedit ~/.bashrc
把下面的代码增加完然后再输入:
source ~/.bashrc


export PATH=$PATH:/home/pysml/spark/bin (/home/pysml/spark表示spark的路径,根据自己的路径进行更换)

(7)直接在Terminal里输入:pyspark就直接运行了。出现一个以下标志说明安装成功了,下面出现>>>,说明进入了Python里了。



(8)打开pyspark是Python,但想用ipython进行编程。

进入.bashrc文件在其最后增加以下代码:(进入.bashrc文件的代码:
sudo gedit ~/.bashrc
把下面的代码增加完然后再输入:
source ~/.bashrc


export PATH=”/home/pysml/anaconda2/bin:$PATH”

export PYSPARK_DRIVER_PYTHON=ipython

(9)在Terminal里输入:pyspark,出现下图#####spark里配置ipython成功。



注:如有幸被其他同学看到还请指点不足之处,如有不幸带来困扰还请评论于我或私信于我。最后,本文纯属个人编写,转载请注明出处

参考链接:

1、http://jingyan.baidu.com/article/20b68a8893ae50796cec62b4.html

2、http://blog.csdn.net/duxu24/article/details/53587451

3、http://blog.csdn.net/dst1213/article/details/52107915
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: