您的位置:首页 > 编程语言 > Python开发

关于在windows平台下使用ipython运行pyspark的问题

2015-11-20 15:46 621 查看
最近读了一本书<machine learning with spark> ,在第三章中讲到用增强的交互式ipython运行pyspark,也就是用如下命令:

                                                    > IPYTHON=1 IPYTHON_OPTS="--pylab" ./bin/pyspark

本人在windows平台下的shell中跑spark,上述命令运行失败。查阅了多个文献,大都是讲在linux平台下的ipython配置来运行 pyspark。在 spark的conf目录下配置也不起作用,这下犯难了!!!

假设您已经安装了 python及相关的库,下面是解决办法:

在spark配置文件中,%SPARK_HOME%/bin目录下有pypspark, pyspark.cmd, pyspark2.cmd三个文件,第一个是.sh文件(linux),第二、三个windows的脚本文件,其中pyspark2.cmd是主要执行文件,其内容如下:

-------------------------------------------------------------------------------------------------------------------------------------------------------------

set SPARK_HOME=%~dp0..

call %SPARK_HOME%\bin\load-spark-env.cmd

set _SPARK_CMD_USAGE=Usage: bin\pyspark.cmd [options]

rem Figure out which Python to use.

if "x%PYSPARK_DRIVER_PYTHON%"=="x" (

set PYSPARK_DRIVER_PYTHON=python

if not [%PYSPARK_PYTHON%] == [] set PYSPARK_DRIVER_PYTHON=%PYSPARK_PYTHON%

)

set PYTHONPATH=%SPARK_HOME%\python;%PYTHONPATH%

set PYTHONPATH=%SPARK_HOME%\python\lib\py4j-0.8.2.1-src.zip;%PYTHONPATH%

set OLD_PYTHONSTARTUP=%PYTHONSTARTUP%

set PYTHONSTARTUP=%SPARK_HOME%\python\pyspark\shell.py

call %SPARK_HOME%\bin\spark-submit2.cmd pyspark-shell-main --name "PySparkShell" %*

-------------------------------------------------------------------------------------------------------------------------------------------------------------------

PYSPARK_DRIVER_PYTHON参数是指用什么来运行pyspark,只需要将红色部分改为

                            PYSPARK_DRIVER_PYTHON=ipython

保存后,在运行pyspark,就可以直接用ipython运行pyspark了。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: