您的位置:首页 > 大数据 > Hadoop

pycharm搭建spark环境

2018-08-20 17:37 190 查看
pycharm搭建spark环境

安装python环境

windows下有安装包,自行下载安装即可

安装spark环境

官网下载
spark-2.3.1-bin-hadoop2.7
包,解压即可

配置
HADOOP_HOME:D:\softwares\Java\hadoop-2.7.7
SPARK_HOME:D:\softwares\Java\spark-2.3.1-bin-hadoop2.7
PATH:%SPARK_HOME%\bin;%HADOOP_HOME%\bin;


配置python-spark环境

将spark目录
D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib
下的
py4j-0.10.7-src.zip
解压

将解压后的
py4j
放到 python 目录
D:\softwares\Java\Python36\Lib\site-packages


提示:python 和 spark 的安装目录自行替换

下载安装pycharm

创建项目

创建python文件,内容如下:
from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster('local').setAppName('JackManWu')
sc = SparkContext(conf=conf)
lines = sc.textFile("D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\README.md")
print(lines.count())


点击run运行,结果如下:
2018-08-20 17:30:13 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
2018-08-20 17:30:15 WARN  Utils:66 - Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
103


运行是没有问题,但是在pycharm中,
pyspark
SparkConf
SparkContext
会有红色波浪线,而且也没有spark的代码智能提示、补全等,极不方便,如下方法可以解决:

点击File->Settings,在左侧导航栏找到自己的项目,点击
Project Structure
,在面板右侧,点击
Add Content Root
,将spark目录
D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib
下的
pyspark.zip
的文件添加进项目中,即可解决红色波浪线及智能提示补全问题。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息