您的位置:首页 > 运维架构

在windows上pycharm配置spark环境

2017-12-11 16:12 1136 查看
(1)分别从Hadoop官网和spark官网下载Hadoop和spark的安装包

Hadoop下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common

spark下载地址:

http://spark.apache.org/downloads.html

注意版本要兼容;

(2)把Hadoop和spark的安装包解压,由于他们都是非安装软件,解压就可以了,然后设置环境变量,把路径添加到path中,D:\hadoop-2.6.0\bin;D:\spark-2.2.0-bin-hadoop2.7\bin注意用分号隔开



(3)启动pyspark验证

理想情况下是这样的:



可是宝宝的却是这样的:



有个哥们说,原因是这样的:http://blog.csdn.net/helloxiaozhe/article/details/77802865

因为可以出来python的>>>,应该就可以用,我不想关电脑,没有试。

(4)在pycharm中配置开发环境

a、打开pycharm,创建一个progect,设置run configuration



在环境变量中添加HADOOP_HOME,SPARK_HOME和PYTHONPATH

b、安装pyspark 和py4j

pyspark安装,在cmd终端中pip install pyspark或者在pycharm的setting中


安装的比较慢,勿骄勿躁。

py4j

Py4j可以使运行于python解释器的python程序动态的访问java虚拟机中的java对象。Java方法可以像java对象就在python解释器里一样被调用,Java collection也可以通过标准python collection方法调用。Py4j也可以使java程序回调python对象。

(5)测试程序

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="D:\spark-2.2.0-bin-hadoop2.7"

# Append pyspark to Python Path
sys.path.append("D:\spark-2.2.0-bin-hadoop2.7\python")

try:
from pyspark import SparkContext
from pyspark import SparkConf

print ("Successfully imported Spark Modules")

except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)




这样,就说明环境配置好了啦~
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark hadoop pycharm