Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置
2017-04-09 22:28
429 查看
Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置
—– 来自“慢慢变强的me”.2017-04-09
本人是DM领域里菜鸟一枚,原热衷于sklearn进行机器学习,经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习,经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上,一直喜欢Python的我,spark也有相应的API–pyspark shell。工欲善其事必先利其器,经过网上博客等文章的查询,我在这篇文章里主要写了Windows7上的VMware Workstation虚拟机Ubuntu14.04中配置Anaconda(Python2.7)以支持Saprk2.0(Pyspark)安装详细步骤,以为搭建一个独立的属于自己习惯的环境,以备自己以后更好的数据挖掘及机器学习,如有幸被其他同学看到还请指点不足之处,如有不幸带来困扰还请评论于我或私信于我(知乎:慢慢变强的me;CSDN:慢慢变强的me)。最后,本文纯属个人编写,转载请注明出处。
VM虚拟机Ubuntu14.04的环境搭建
安装Aanconda(Python2.7)
安装Java SDK
安装Spark2.0
配置环境变量
(1)利用wget下载Anaconda
(2)在Terminal里输入:
(3)一路点击回车,直到出现:
然后输入
(4)点击回车,等一会儿出现:Thank you for installing Anaconda2!####安装成功!(其实,没有成功,我在安装的过程中没有提示我更改环境变量,然后我在安装好Python后又进行了环境变量配置)
(5)在Terminal里输入:
(6)保存profile,重启ubuntu,输入:python 进行测试出现以下即安装成功。
(2)
(3)
(4)
(5)再输入:
如下是本人所选择的版本:
选择Spark版本: Spark2.0.2(发布于2016.11.14);
选择下载包的类型:Pre-built for Hadoop 2.7 and later;
选择下载类型: Direct Download;
对应spark压缩包: spark-2.0.2-bin-hadoop2.7.tgz
(1)下载上述选择的spark。wget以下就链接OK。
(2)解压spark-2.0.2-bin-hadoop2.7.tgz。代码为:
(3)因为解压后会生成一个spark-2.0.2-bin-hadoop2.7文件夹,为了方便可以去解压的存放路径手动改成名为spark的文件夹。
(4)然后进行配置环境变量:进入profile文件,在其最后增加以下代码:(进入profile的文件代码为:
(5)其实这步骤就可以验证spark是否安装成功。但比较繁锁:
cd ~/spark
./bin/pyspark
(6)为了不要每次都要进行cd进入文件里调用pyspark,然后在.bashrc文件里进行spark的环境变量配置。和profile一样,进入.bashrc文件在其最后增加以下代码:(进入.bashrc文件的代码:
export PATH=$PATH:/home/pysml/spark/bin (/home/pysml/spark表示spark的路径,根据自己的路径进行更换)
(7)直接在Terminal里输入:pyspark就直接运行了。出现一个以下标志说明安装成功了,下面出现>>>,说明进入了Python里了。
(8)打开pyspark是Python,但想用ipython进行编程。
进入.bashrc文件在其最后增加以下代码:(进入.bashrc文件的代码:
export PATH=”/home/pysml/anaconda2/bin:$PATH”
export PYSPARK_DRIVER_PYTHON=ipython
(9)在Terminal里输入:pyspark,出现下图#####spark里配置ipython成功。
注:如有幸被其他同学看到还请指点不足之处,如有不幸带来困扰还请评论于我或私信于我。最后,本文纯属个人编写,转载请注明出处
参考链接:
1、http://jingyan.baidu.com/article/20b68a8893ae50796cec62b4.html
2、http://blog.csdn.net/duxu24/article/details/53587451
3、http://blog.csdn.net/dst1213/article/details/52107915
—– 来自“慢慢变强的me”.2017-04-09
本人是DM领域里菜鸟一枚,原热衷于sklearn进行机器学习,经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习,经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上,一直喜欢Python的我,spark也有相应的API–pyspark shell。工欲善其事必先利其器,经过网上博客等文章的查询,我在这篇文章里主要写了Windows7上的VMware Workstation虚拟机Ubuntu14.04中配置Anaconda(Python2.7)以支持Saprk2.0(Pyspark)安装详细步骤,以为搭建一个独立的属于自己习惯的环境,以备自己以后更好的数据挖掘及机器学习,如有幸被其他同学看到还请指点不足之处,如有不幸带来困扰还请评论于我或私信于我(知乎:慢慢变强的me;CSDN:慢慢变强的me)。最后,本文纯属个人编写,转载请注明出处。
VM虚拟机Ubuntu14.04的环境搭建
安装Aanconda(Python2.7)
安装Java SDK
安装Spark2.0
配置环境变量
一、VM虚拟机Ubuntu14.04的环境搭建(略)
二、安装Anaconda(Python2.7)
根据自己需要下载anaconda版本:下载网址(1)利用wget下载Anaconda
(2)在Terminal里输入:
bash Anaconda2-4.3.1-Linux-x86_64.sh点击回车即可。
(3)一路点击回车,直到出现:
Do you approve the license terms? [yes|no] >>> Please answer 'yes' or 'no':
然后输入
yes。
(4)点击回车,等一会儿出现:Thank you for installing Anaconda2!####安装成功!(其实,没有成功,我在安装的过程中没有提示我更改环境变量,然后我在安装好Python后又进行了环境变量配置)
(5)在Terminal里输入:
sudo gedit /etc/profile打开profile文件,在最后面增加一行代码:
export PATH=/home/pysml/anaconda2/bin:$PATH,其中,/home/pysml/anaconda2是我anaconda2安装路径。
(6)保存profile,重启ubuntu,输入:python 进行测试出现以下即安装成功。
三、安装Java SDK(安装的是java9)
(1)只需要在Terminal输入:sudo apt-get install software-properties-common
(2)
sudo add-apt-repository ppa:webupd8team/java
(3)
sudo apt-get update
(4)
sudo apt-get install oracle-java9-installer
(5)再输入:
java -version,出现以下即安装成功。
四、安装spark2.0
根据自己需要选择spark版本,下载网址如下是本人所选择的版本:
选择Spark版本: Spark2.0.2(发布于2016.11.14);
选择下载包的类型:Pre-built for Hadoop 2.7 and later;
选择下载类型: Direct Download;
对应spark压缩包: spark-2.0.2-bin-hadoop2.7.tgz
(1)下载上述选择的spark。wget以下就链接OK。
http://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz
(2)解压spark-2.0.2-bin-hadoop2.7.tgz。代码为:
tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz。
(3)因为解压后会生成一个spark-2.0.2-bin-hadoop2.7文件夹,为了方便可以去解压的存放路径手动改成名为spark的文件夹。
(4)然后进行配置环境变量:进入profile文件,在其最后增加以下代码:(进入profile的文件代码为:
sudo gedit /etc/profile)
export ANACONDA_ROOT=~/anaconda2 PYSPARK_DRIVER_PYTHON=jupyter ./bin/pyspark
(5)其实这步骤就可以验证spark是否安装成功。但比较繁锁:
cd ~/spark
./bin/pyspark
(6)为了不要每次都要进行cd进入文件里调用pyspark,然后在.bashrc文件里进行spark的环境变量配置。和profile一样,进入.bashrc文件在其最后增加以下代码:(进入.bashrc文件的代码:
sudo gedit ~/.bashrc把下面的代码增加完然后再输入:
source ~/.bashrc)
export PATH=$PATH:/home/pysml/spark/bin (/home/pysml/spark表示spark的路径,根据自己的路径进行更换)
(7)直接在Terminal里输入:pyspark就直接运行了。出现一个以下标志说明安装成功了,下面出现>>>,说明进入了Python里了。
(8)打开pyspark是Python,但想用ipython进行编程。
进入.bashrc文件在其最后增加以下代码:(进入.bashrc文件的代码:
sudo gedit ~/.bashrc把下面的代码增加完然后再输入:
source ~/.bashrc)
export PATH=”/home/pysml/anaconda2/bin:$PATH”
export PYSPARK_DRIVER_PYTHON=ipython
(9)在Terminal里输入:pyspark,出现下图#####spark里配置ipython成功。
注:如有幸被其他同学看到还请指点不足之处,如有不幸带来困扰还请评论于我或私信于我。最后,本文纯属个人编写,转载请注明出处
参考链接:
1、http://jingyan.baidu.com/article/20b68a8893ae50796cec62b4.html
2、http://blog.csdn.net/duxu24/article/details/53587451
3、http://blog.csdn.net/dst1213/article/details/52107915
相关文章推荐
- windos下JAVA 安装及环境变量配置
- appium在dmg安装后 MAC的环境变量设置(配置后可以shell启动)
- win7下jdk安装环境变量配置
- 安装Tomcat,过程中需要配置的环境变量及遇到的问题
- JDK安装与环境变量配置
- 安装jdk时环境变量的配置
- JDK下载安装及其环境变量配置
- JDK安装,环境变量配置
- JDK安装与环境变量配置win 7
- Windows下NoSql图形数据库☞Neo4j的安装+环境变量配置+服务注册+访问
- java环境变量配置+jdk安装
- Linux下安装IPython配置python开发环境教程
- Spark1.0.0 环境变量配置
- win10+python3下Anaconda的安装及环境变量配置
- JDK安装及环境变量配置
- ant安装、环境变量配置及验证
- Linux下安装jdk1.8并配置环境变量的教程
- ubuntu下jdk的安装和环境变量的配置
- Java开发环境配置(4)--Maven安装 环境变量配置,本地仓库配置---插件安装
- Windows中 RabbitMQ安装与环境变量配置