python运行spark脚本程序
2017-06-14 00:00
323 查看
两种方法:
使用 spark-submit 解释执行python脚本
使用 python 解释执行python脚本
1. 使用Spark-submit解释执行python脚本
python脚本中需要在开头导入spark相关模块,调用时使用spark-submit提交,示例代码如下:
发布命令为:
2. 使用 python 解释执行python脚本
直接用python执行会出现错误:
缺少pyspark和py4j这两个模块,这两个包在Spark的安装目录里,需要在环境变量里定义PYTHONPATH,编辑~/.bashrc或者/etc/profile文件均可
然后关闭终端,重新打开,用python执行即可
使用 spark-submit 解释执行python脚本
使用 python 解释执行python脚本
1. 使用Spark-submit解释执行python脚本
python脚本中需要在开头导入spark相关模块,调用时使用spark-submit提交,示例代码如下:
"""odflow.py""" from pyspark import SparkContext fileDir = "/TripChain3_Demo.txt" # sc = SparkContext("local", "ODFlow") sc = SparkContext("spark://ITS-Hadoop10:7077", "ODFlow") lines = sc.textFile(fileDir) # python不能直接写多行的lambda表达式,所以要封装在函数中 def toKV(line): arr = line.split(",") t = arr[5].split(" ")[1].split(":") return (t[0]+t[1]+","+arr[11]+","+arr[18],1) r1 = lines.map( lambda line : toKV(line) ).reduceByKey(lambda a,b: a+b) # 排序并且存入一个(repartition)文件中 r1.sortByKey(False).saveAsTextFile("/pythontest/output")
发布命令为:
spark-submit \ --master spark://ITS-Hadoop10:7077 \ odflow.py
2. 使用 python 解释执行python脚本
直接用python执行会出现错误:
ImportError: No module named pyspark ImportError: No module named py4j.java_gateway
缺少pyspark和py4j这两个模块,这两个包在Spark的安装目录里,需要在环境变量里定义PYTHONPATH,编辑~/.bashrc或者/etc/profile文件均可
vi ~/.bashrc # 或者 sudo vi /etc/profile # 添加下面这一行 export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH # 使其生效 source ~/.bashrc # 或者 sudo source /etc/profile
然后关闭终端,重新打开,用python执行即可
python odflow.py
相关文章推荐
- python获取程序运行目录和脚本目录
- 在python程序中运行shell脚本
- 运行python版本的Spark程序
- 在Windows上让Python脚本像程序一样可以双击运行
- 如何运行含spark的python脚本
- Hadoop Streaming运行Python脚本程序
- 【分布式编程】四——Pycharm运行Python版Spark程序
- linux的shell脚本运行python程序
- Python获取程序运行目录和脚本目录
- python获取程序运行目录和脚本目录
- Inno Setup安装、卸载时判断是否程序正在运行,安装完成时自动打开网页的脚本
- python自动补全以及自带脚本运行失败解决方法
- 如何发布vc调用Python的独立运行的程序
- python写的command下运行的友情链接检测小程序
- Linux下运行Java程序脚本
- Inno Setup安装、卸载时判断是否程序正在运行,安装完成时自动打开网页的脚本
- 自动运行和关闭jar程序的sh脚本
- ◎Vbs脚本编程简明教程之四—如何利用Vbs运行外部程序?
- Inno 4000 Setup安装、卸载时判断是否程序正在运行,安装完成时自动打开网页的脚本
- Python 跟 ArcGIS断了联系……Model的py脚本无法运行