【分布式编程】四——Pycharm运行Python版Spark程序
2018-02-07 11:13
471 查看
前言
此前搭建成功分布式Spark环境,此文介绍使用Pycharm运行Python语言的Spark程序。操作步骤
安装Pycharm
点击下载。过程与安装Intellij IDEA类似,在此不在赘述。
进入到安装目录下执行
./bin pycharm-sh
配置运行环境
创建新项目新建一个Python文件,这里命名为
main.py
from pyspark import SparkContext,SparkConf conf=SparkConf().setAppName("sparkDemo").setMaster("local") sc=SparkContext(conf=conf) logFile='/data/input/README.txt' logData=sc.textFile(logFile).cache() numAs = logData.filter(lambda s: 'a' in s).count() numBs = logData.filter(lambda s: 'b' in s).count() print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
logFile='/data/input/README.txt'
此路径是之前运行Hadoop例程在HDFS中创建的
/data/input文件夹以及上传到此文件夹的
README.txt文件。
将Spark中的pyspark模块添加到Python环境变量中去
sudo vim /etc/profile
添加以下代码
export PYTHONPATH=$SPARK_HOME/libexec/python:$SPARK_HOME/libexec/python/build:$PYTHONPATH
更新配置
source /etc/profile
将
/usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip解压。
tar -zxvf /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip
将解压后的文件夹复制到
/usr/spark-2.2.1-bin-without-hadoop/Python文件夹下。
sudo mv /usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j /usr/spark-2.2.1-bin-without-hadoop/Python
【注】
/usr/spark-2.2.1-bin-without-hadoop是spark安装目录。
py4j-0.10-4-src.zip根据版本号不同,文件名称也有差异
点击
Run-Edit Configurations
点击左上角绿色
+,选择
Python
填写配置
Name:任起一个名字即可
Script path:执行的Python文件的路径。可以点右侧的下图中红框选择文件路径。
Environment variables:添加
PYTHONPATH和
SPARK_HOME变量。
PYTHONPATH:
spark安装目录/python
SPARK_HOME:
spark安装目录
点击
File-Settings-Project-Project Structure
点击右侧
Add Content Root
添加
/usr/spark-2.2.1-bin-without-hadoop/Python/lib/py4j-0.10.4-src.zip和
/usr/spark-2.2.1-bin-without-hadoop/Python/lib/pyspark.zip
运行即可
【注】若
from pyspark import SparkContext,SparkConf下还有红线,则添加以下代码即可
import sys sys.path.insert(1,'/usr/spark-2.2.1-bin-without-hadoop/python')
相关文章推荐
- pycharm安装后无法运行Python程序
- 用python + hadoop streaming 分布式编程(一) -- 原理介绍,样例程序与本地调试
- 以hdfs上文件或者本地文件作为输入在Pycharm中运行spark程序代码示例
- 最全Pycharm教程(9)——创建并运行一个基本的Python测试程序 --待整理
- python利用Pycharm来运行调试Scrapy框架程序
- Python第一次运行分布式计算程序
- 最全Pycharm教程(9)——创建并运行一个基本的Python测试程序
- 用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控
- 用python + hadoop streaming 分布式编程(一) -- 原理介绍,样例程序与本地调试
- 运行python版本的Spark程序
- Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
- Spark RDD编程(Python和Scala版本)----Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。 Spa
- python运行spark脚本程序
- 最全Pycharm教程(9)——创建并运行一个基本的Python测试程序
- ROS Learning-013 beginner_Tutorials (编程) 编写ROS服务版的Hello World程序(Python版)
- 我的spark第一个程序应用(python版)
- Python中四种运行其他程序的方式
- python核心编程学习笔记-(第1天)-运行python
- 同一程序,idle可以运行,pycharm不可以运行的原因(不要以库函数命名文件)
- Python程序运行原理解释