您的位置：首页 > 运维架构

在windows上pycharm配置spark环境

2017-12-11 16:12 1136 查看

(1)分别从Hadoop官网和spark官网下载Hadoop和spark的安装包

Hadoop下载地址：http://www.apache.org/dyn/closer.cgi/hadoop/common

spark下载地址：

http://spark.apache.org/downloads.html

注意版本要兼容；

（2）把Hadoop和spark的安装包解压，由于他们都是非安装软件，解压就可以了，然后设置环境变量，把路径添加到path中，D:\hadoop-2.6.0\bin；D:\spark-2.2.0-bin-hadoop2.7\bin注意用分号隔开

（3）启动pyspark验证

理想情况下是这样的：

可是宝宝的却是这样的：

有个哥们说，原因是这样的：http://blog.csdn.net/helloxiaozhe/article/details/77802865

因为可以出来python的>>>,应该就可以用，我不想关电脑，没有试。

（4）在pycharm中配置开发环境

a、打开pycharm，创建一个progect,设置run configuration

在环境变量中添加HADOOP_HOME,SPARK_HOME和PYTHONPATH

b、安装pyspark 和py4j

pyspark安装，在cmd终端中pip install pyspark或者在pycharm的setting中

安装的比较慢，勿骄勿躁。

py4j

Py4j可以使运行于python解释器的python程序动态的访问java虚拟机中的java对象。Java方法可以像java对象就在python解释器里一样被调用，Java collection也可以通过标准python collection方法调用。Py4j也可以使java程序回调python对象。

（5）测试程序

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="D:\spark-2.2.0-bin-hadoop2.7"

# Append pyspark to Python Path
sys.path.append("D:\spark-2.2.0-bin-hadoop2.7\python")

try:
from pyspark import SparkContext
from pyspark import SparkConf

print ("Successfully imported Spark Modules")

except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)

这样，就说明环境配置好了啦~

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark hadoop pycharm

相关文章推荐

新的分享

章节导航