开始使用 Spark
2017-09-27 10:54
232 查看
pyspark
如果你想要减少日志的打印,复制 conf/log4j.properties.template 并重命名为 conf/log4j.properties,然后修改下列配置:log4j.rootCategory=WARN, console
使用IPython
IPython是一个python的高级shell,包含需要功能,现在可以把IPython集成到SPARK中。> sudo pip install ipython==5.0 > sudo pip install jupyter > sudo vim /etc/environment -------------- export PYSPARK_PYTHON=python export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS="notebook --allow-root --ip=192.168.33.32" -------------- > ./bin/pyspark
注:如果报错“Caused by: ERROR 25505: A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection.”,说明你的操作用户权限不够。
使用示例:
Spark 核心概念
Spark应用由一个 driver program 组成,它可以部署各种各样的操作在cluster上面。Driver program包含你应用的主函数并且它定义了distributed datasets在集群上面。Driver program通过 SparkContext object 访问Spark,其实也就是代表一个连接到计算集群里。
当你有了 SparkContext,你就可以调用一些内置函数来生成RDDs了。例如sc.textFile() 就创建了一个RDD。
为了运行这一系列的操作,driver program管理着一系列的nodes,我们叫做executor。
当有任务或函数需要执行的时候,driver program会自动把函数分配到不同的集群节点里面执行。
Standalone Applications
你可以把你的应用用Python脚本编写,但是你必须要使用 bin/spark-submit 把这个脚本进行提交执行。> bin/spark-submit my_script.py
例如:
test.py
from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster('local').setAppName('My App') sc = SparkContext(conf = conf) print(sc)
执行:
> /opt/spark/bin/spark-submit test.py
注:
1. setMaster() 用来设置 cluster URL,在这里 local 意味着在本地一个线程里面的运行Spark应用。
2. AppName 是你应用的名字,你可以在CLUSTER MANAGER UI查看。
当你在python中获得了 SparkContext object,你就可以调用函数生成 RDDs了。如果你想要关闭Spark,可以在SparkContext上面调用stop()方法或者直接调用系统退出(system.exit(0)或者sys.exit())
相关文章推荐
- 快速开始使用Spark和Alluxio
- 使用Python和R语言从头开始理解和编写神经网络
- [MVCSharp]开始使用MVC#
- .NET / Rotor源码分析5 - 开始使用WinDbg+SOS调试,sscoree.dll,加载SOS并设置JIT断点
- spark-submit使用及说明
- 从头开始学 RecyclerView(一) 基本使用
- [置顶] 使用Crontab定时执行Spark任务
- 1.Spark SQL:DataFrame的使用
- 3.Spark SQL:使用反射方式、编程方式,将RDD转换为DataFrame
- 4.Spark SQL:数据源Parquet之使用编程方式加载数据
- 《Pro Ogre 3D Programming》 读书笔记 之 第四章 开始使用OGRE
- 开始使用csdn博客
- 1.4、solrj的使用_代码开始
- 使用sbt assembly构建Spark项目
- 开始使用Commons Chain (第一部分)
- spark中streamingContext的使用详解
- spark 使用中会遇到的一些问题及解决思路
- Spread for Windows Forms快速入门(1)---开始使用Spread
- Spark SQL下的Parquet使用最佳实践和代码实战
- spark学习-24-Spark算子Transformations和Action使用大全(Action章)