您的位置：首页 > 大数据 > Hadoop

《Python+Spark 2.0+Hadoop机器学习与大数据实战》第9章在 IPython Notebook 运行 Python Spark 程序

2018-06-01 14:08 821 查看

参考博客：https://www.cnblogs.com/NaughtyBaby/p/5469469.html

参考书籍：《Python+Spark 2.0+Hadoop机器学习与大数据实战》

疑问：在

ANACONDA_PATH/bin目录下看到ipython2，还没查看与ipython的区别。

安装：

bash Anaconda2-5.2.0-Linux-x86_64.sh -b

编辑环境：

vi /etc/profile
export ANACONDA_PATH=/root/anaconda2
export PATH=$ANACONDA_PATH/bin:$PATH
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python
source /etc/profile
python --version

先生成 notebook 配置文件：命令行执行 jupyter notebook --generate-config，然后打开生成的文件： vi ~/.jupyter/jupyter_notebook_config.py，修改 c.NotebookApp.ip = '127.0.0.1'。如果想外网也可以访问，ip 就设为外网 IP 地址。我选择的是第二种，设的外网 IP 地址，这样就可以在 Windows 上编辑 ipython notebook 文件了，非常方便。

mkdir -p /root/pythoneork/ipynotebook
cd /root/pythoneork/ipynotebook
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

运行 IPython Notebook 以使用 Spark：

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=yarn pyspark --num-executors 1 --total-executor-cores 2 --executor-memory 512m

上面命令在sc.master查看到的结果是：

u'yarn-client'

在 Hadoop YARN master 模式运行 Python Notebook，这个是不行的，其实也不是这么提交的，而是作业提交
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=yarn pyspark --deploy-mode cluster
报错误：Error: Cluster deploy mode is not applicable to Spark shells
据说cluster 模式不支持standalone clusters, Mesos clusters, or python applications模式，请参考：https://www.cnblogs.com/chengjunhao/p/8028264.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

《Python+Spark 2.0+Hadoop机器学习与大数据实战》第9章 在 IPython Notebook 运行 Python Spark 程序

《Python+Spark 2.0+Hadoop机器学习与大数据实战》第9章在 IPython Notebook 运行 Python Spark 程序