您的位置:首页 > 其它

Spark spark-submit 参数

2017-12-06 20:52 295 查看

参数翻译

参 数 名 [b]__________________[/b]格式参数说明
–masterMASTER_URLspark://host:port, mesos://host:port, yarn, or local.
–deploy-modeDEPLOY_MODE是否在本地启动驱动程序(“client”) 或者 在集群内部的一个工作机器上(“cluster”)(默认: client)。
–classCLASS_NAME应用程序的主类(用于Java / Scala应用程序)。
–nameNAME应用程序的名称。
–jarsJARS逗号分隔的本地jar包,包含在driver和executor的classpath下。
–packages包含在driver和executor的classpath下的jar包逗号分隔的”groupId:artifactId:version”列表
–exclude-packages用逗号分隔的”groupId:artifactId”列表, 在解析包中提供的依赖项时排除,以避免依赖性冲突。
–repositories逗号分隔的远程仓库
–py-filesPY_FILES逗号分隔的”.zip”,”.egg”或者“.py”文件,这些文件放在python app的PYTHONPATH下面
–filesFILES逗号分隔的文件,这些文件放在每个executor的工作目录下面
–confPROP=VALUE任意的spark配置属性。
–properties-fileFILE用于加载额外属性的文件的路径。如果没有指定,将查找conf/spark-defaults.conf。
–driver-memoryMEMdriver的内存大小 (例如 1000M, 2G) (默认: 1024M).
–driver-java-options传给driver的额外的Java选项
–driver-library-path传给driver的额外的库路径
–driver-class-path传给driver的额外的类路径, 注意,通过–jars 添加的自动加载到classPath路径下。
–executor-memoryMEM每个executor的内存大小 (例如:1000M, 2G) (默认: 1G).
–proxy-userNAME提交应用程序时的模拟用户。
–help, -h显示此帮助消息并退出
–verbose, -v打印更多的调试输出
–version,打印当前Spark的版本
仅在使用standalone的cluster模式:

–driver-coresNUMdriver的核数 (默认: 1).
仅在standalone和Mesos的cluster模式:

–supervise如果给定,在driver启动失败时候重试。
–killSUBMISSION_ID如果给定,杀死指定的dr
4000
iver
–statusSUBMISSION_ID如果给定,返回指定的driver的状态。
仅在standalone和Mesos模式:

–total-executor-coresNUM所有executors的总核数。
仅在standalone和YARN模式:

–executor-coresNUM每个executor的核数。(默认: 1 in YARN mode;worker所有可用的cores数 in standalone mode)
仅在YARN模式下:

–driver-coresNUMdriver用的内核数, 仅用在cluster模式(默认: 1)。
–queueQUEUE_NAME要提交到的YARN队列 (默认: “default”)。
–num-executorsNUM启动的executors的数量 (默认: 2)。
–archivesARCHIVES用逗号分隔的档案,被添加到每个executor的工作目录。

官网案例

# 1、locally on 8 cores

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[8] \
/path/to/examples.jar \
100

---------------------------------------------------------

# 2、standalone in client

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000

---------------------------------------------------------

# 3、standalone in cluster with supervise[如果给定,在driver启动失败时候重试。]

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--deploy-mode cluster \
--supervise \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000

---------------------------------------------------------

# 4、YARN client

export HADOOP_CONF_DIR=XXX
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \  # can be client for cluster mode
--executor-memory 20G \
--num-executors 50 \
/path/to/examples.jar \
1000

---------------------------------------------------------

# 5、YARN cluster
./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
--queue thequeue \
lib/spark-examples*.jar \
10
---------------------------------------------------------

# 6、Python application on  standalone cluster
./bin/spark-submit \
--master spark://207.184.161.138:7077 \
examples/src/main/python/pi.py \
1000


参考

[官网地址]: http://spark.apache.org/docs/latest/submitting-applications.html

[standalone]: http://spark.apache.org/docs/latest/spark-standalone.html

[YARN]: http://spark.apache.org/docs/latest/running-on-yarn.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: