《Python+Spark 2.0+Hadoop机器学习与大数据实战》第9章 在 IPython Notebook 运行 Python Spark 程序
2018-06-01 14:08
821 查看
参考博客:https://www.cnblogs.com/NaughtyBaby/p/5469469.html
参考书籍:《Python+Spark 2.0+Hadoop机器学习与大数据实战》
疑问:在
ANACONDA_PATH/bin目录下看到ipython2,还没查看与ipython的区别。安装:
bash Anaconda2-5.2.0-Linux-x86_64.sh -b编辑环境:
vi /etc/profile export ANACONDA_PATH=/root/anaconda2 export PATH=$ANACONDA_PATH/bin:$PATH export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python source /etc/profile python --version先生成 notebook 配置文件:命令行执行 jupyter notebook --generate-config,然后打开生成的文件: vi ~/.jupyter/jupyter_notebook_config.py,修改 c.NotebookApp.ip = '127.0.0.1'。如果想外网也可以访问,ip 就设为外网 IP 地址。我选择的是第二种,设的外网 IP 地址,这样就可以在 Windows 上编辑 ipython notebook 文件了,非常方便。
mkdir -p /root/pythoneork/ipynotebook cd /root/pythoneork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark运行 IPython Notebook 以使用 Spark:
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=yarn pyspark --num-executors 1 --total-executor-cores 2 --executor-memory 512m上面命令在sc.master查看到的结果是:
u'yarn-client'
在 Hadoop YARN master 模式运行 Python Notebook,这个是不行的,其实也不是这么提交的,而是作业提交
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=yarn pyspark --deploy-mode cluster
报错误:Error: Cluster deploy mode is not applicable to Spark shells
据说cluster 模式不支持standalone clusters, Mesos clusters, or python applications模式,请参考:https://www.cnblogs.com/chengjunhao/p/8028264.html
相关文章推荐
- python 运行 hadoop 2.0 mapreduce 程序
- python机器学习及实战代码13-16,程序运行时出现提醒及修改
- python 运行 hadoop 2.0 mapreduce 程序
- [hadoop+spark+python]大数据实战随手笔记
- 大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程
- 下载大数据实战课程第二季基于Python机器学习、项目案例实战
- python运行spark脚本程序
- FMI飞马网 | 人工智能/大数据/程序/语言/项目管理/机器学习/Python书籍免费赠书
- 【备忘】2017Spark 2.0大型项目实战:移动电商app交互式数据分析
- Hadoop2.0、YARN技术的大数据高阶应用实战
- 机器学习实战(8) ——预测数值型数据回归(python实现)
- spark接收kafka的数据运行spark程序节点的task数据倾斜
- Hadoop实战——MapReduce程序的运行模式
- 基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma
- 在Hadoop上运行python程序错误集合
- 数据挖掘中SAS、python、R、spark、hadoop个人见解
- spark接收kafka的数据运行spark程序节点的task数据倾斜
- 【机器学习实战-python3】缩减系数来“理解”数据
- windows 运行spark或者hadoop程序报winutils.exe错误
- Hadoop Streaming运行Python脚本程序