您的位置:首页 > 理论基础 > 计算机网络

机器学习(包括深度神经网络)python开发环境搭建(超详细)(适合新手)

2016-10-19 15:31 543 查看
最近接了一个大数据项目,需要进行到数据分析,作为一个从程序员往数据挖掘工程师转行的人来说,R语言在灵活性上不如Python,并且在深度神经网络等机器学习开源模块上,python也比R语言有更好的支持。本文主要利用Ubuntu来搭建虚拟机来进行数据分析工作,主要利用了sklearn和keras开源模块。Google开发的深度神经网络python开源模块tensorflow目前不支持windows系统,因此强烈建议使用linux操作系统,而redhat虽然是Linux系统中比较成熟的一种,但是其yum是付费服务,并且没有预装apt-get等大量的插件,因此选择ubuntu系统,对于刚入门的新手来说更友好。

环境配置:

VM Ware 12.0(在不同主机之间的文件复制粘贴比Visual Box要好一点)

Anaconda2 (python2.7以及相关的科学计算集成,安装完成后就可以直接使用科学计算所有的模块,包括最流行的numpy,pandas)

JetBrain Pycharm (Python开发最火的IDE集成开发工具,方便使用git和github进行代码的管理)

Ubuntu16.01 amd64位

1、Ubuntu虚拟机安装



选择Ubuntu的ISO镜像文件,这时VM Ware将自动选择为简易安装,不用考虑分区问题



设置虚拟主机的名称,新建一个user用户,并设置登录密码,这个密码必须记住,因为在进行管理员操作的时候必须用到。



选择虚拟机的安装目录和名称,这里命名为Ubunu64位



考虑到做大数据的数据分析,因此磁盘大小建议分配50G,反正只是逻辑磁盘,分配多点没有问题。



点击完成,则VM Ware自动帮你安装虚拟机,此时你只要耐心等待即可。

输入刚刚设置的登录密码,进入桌面


2、安装git
点击左上角的图标,点击terminal,打开命令行窗口。



输入sudo apt-get install git,下载git安装包
输入git config --global user.name "Your Name"git config --global user.email "youremail@domain.com"设置你的git的用户名和邮箱
设置完成后,输入git config -list,显示信息如下:
user.name=Your Name 
user.email=youremail@domain.com
在命令行中输入git,要是有正确返回,则git安装完成。
3、Anaconda2的安装

从官网上直接下载Anaconda2 适合linux的安装包,复制粘贴到/home/bigdata/Downloads下,建议直接在Ubuntu的火狐浏览器下直接下载,这样直接从网上将Anaconda2、pycharm下载到相应的目录。pycharm下载后是tar.gz格式,可以右键点击extract here进行解压到当前目录。同时,在/home/bigdata/Downloads下新建data、tmp两个文件夹,存放数据分析的数据和模型结果。

此时,由于下载的Anaconda2是一个.sh文件,Ubuntu系统对于.sh文件不能很好的兼容,所以不能直接点击打开,必须使用命令行打开。
输入cd /home/bigdata/Downloads跳转到Anaconda2的目录
输入bash Anaconda2-4.1.1-Linux-x86_64.sh,启动安装程序,按照提示进行操作

完成后,/home/bigdata文件夹会有一个anaconda2的文件夹。
添加环境变量,使系统能够使用Anaconda里的工具命令。

输入sudo gedit /etc/environment,输入登录密码,这里的密码是不可见的。得到
在PATH路径中添加anaconda的bin包路径,注意要添加到“”中,并且用:隔开。



点击save保存。然后退出
打开命令行,输入python,如果出现下图,则Anaconda安装成功。
但这时安装好的Anaconda2里的python2.7.12仍然不是系统默认的Python工具
输入sudo rm /usr/bin/python删除原系统默认的python工具
输入sudo ln -s /home/bigdata/anaconda2/bin/python2.7 /usr/bin/python建立新连接
输入source /etc/environment让操作生效。
输入python,得到下列信息,则python和anaconda彻底安装成功。



4、机器学习相关开源模块安装
安装Anaconda后,可以使用pip或conda工具进行下载开源Python模块,但是必须保持网络连接状态。由于深度神经网络和一些机器学习的模块很新,所以必须两个命令都用到。
输入:

conda install theano

conda install keras

pip install tensorflow

pip install sklearn
安装提示信息安装,完成后,输入python进入python命令行工具,分别输入import keras和import sklearn,如果没有错误信息,则模块安装完成。
5、使用pycharm
打开命令行输入cd /home/bigdata/Downloads/pycharm-community-2016.2.2/bin
输入 bash pycharm.sh运行pycharm

点击左上角的FIle-->settings--->version control----->github,输入自己的github账号和密码,点击测试
点击Test后,第一次会让你设置本地github的登录密码,这个密码必须记住,因为是不是系统在你提交代码或者从github上clone时需要填写这个密码来验证。如果你的github账号密码都正确,则出现下图。

在选择git这个选项,设置你已经安装好的git工具的路径,一般为/usr/bin/git.
点击Test,出现下图则github和git都配置成功,可以使用了。
5、从github中导入项目
从菜单栏中点击VCS,选择checkout from version control,再选择github。
然后就可以选择你想要的项目导入到本地了
有兴趣的同学可以在URL那栏复制粘贴https://github.com:braveld/PythonProgram.git,这是我分享的我找的一些机器学习的代码,以及sklearn和keras的用法,比较容易入手。机器学习的训练集和测试集留言并留下你的邮箱,我会尽快发给你。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: