您的位置：首页 > 编程语言 > Python开发

【分布式编程】四——Pycharm运行Python版Spark程序

2018-02-07 11:13 471 查看

前言

此前搭建成功分布式Spark环境，此文介绍使用Pycharm运行Python语言的Spark程序。

操作步骤

安装Pycharm

点击下载。

过程与安装Intellij IDEA类似，在此不在赘述。

进入到安装目录下执行

./bin pycharm-sh

配置运行环境

创建新项目

新建一个Python文件，这里命名为

main.py

from pyspark import SparkContext,SparkConf

conf=SparkConf().setAppName("sparkDemo").setMaster("local")
sc=SparkContext(conf=conf)
logFile='/data/input/README.txt'
logData=sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

logFile='/data/input/README.txt'

此路径是之前运行Hadoop例程在HDFS中创建的

/data/input

文件夹以及上传到此文件夹的

README.txt

文件。

将Spark中的pyspark模块添加到Python环境变量中去

sudo vim /etc/profile

添加以下代码

export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH

更新配置

source /etc/profile

将

/usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip

解压。

tar -zxvf /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip

将解压后的文件夹复制到

/usr/spark-2.2.1-bin-without-hadoop/Python

文件夹下。

sudo mv /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j /usr/spark-2.2.1-bin-without-hadoop/Python

【注】

/usr/spark-2.2.1-bin-without-hadoop

是spark安装目录。

py4j-0.10-4-src.zip

根据版本号不同，文件名称也有差异

点击

Run-Edit Configurations

点击左上角绿色

，选择

Python

填写配置

Name

：任起一个名字即可

Script path

：执行的Python文件的路径。可以点右侧的下图中红框选择文件路径。

Environment variables

：添加

PYTHONPATH

和

SPARK_HOME

变量。

PYTHONPATH

：

spark安装目录/python

SPARK_HOME

：

spark安装目录

点击

File-Settings-Project-Project Structure

点击右侧

Add Content Root

添加

/usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip

和

/usr/spark-2.2.1-bin-without-hadoop/Python/lib/pyspark.zip

运行即可

【注】若

from pyspark import SparkContext,SparkConf

下还有红线，则添加以下代码即可

import sys
sys.path.insert(1,'/usr/spark-2.2.1-bin-without-hadoop/python')

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航