您的位置:首页 > 其它

spark-submit 参数

2017-07-06 11:18 363 查看
Spark standalone with cluster deploy mode only

Spark standalone and Mesos only

Spark standalone and YARN only

YARN-only

参数含义
–master MASTER_URLspark://host:port, mesos://host:port, yarn, or local
–deploy-mode DEPLOY_MODE部署的模式,client或是cluster,默认为client
–class CLASS_NAME项目入口类 ( Java / Scala )
–name NAME项目名
–jars JARS包含在驱动程序上的本地jar的逗号分隔列表和执行器类路径。
–packages逗号分隔的在maven上的坐标. 将搜索本地的maven仓库,然后搜索maven中心和由–repositories提供的任何其他远程仓库。格式为 groupId:artifactId:version.
–exclude-packages以逗号分隔的groupId列表:artifactId,以排除解析–packages中提供的依赖关系以避免依赖冲突。
–repositories逗号分隔的附加远程仓库列表,以搜索–packages给出的maven坐标.
–py-files PY_FILES逗号分隔的用于Python应用程序的PYTHONPATH上的.zip,.egg或.py文件列表
–files FILES要放置在每个执行器的工作目录中的逗号分隔的文件列表 .
–conf PROP=VALUE任意Spark配置属性.
–properties-file FILE要从中加载额外属性的文件的路径。如果没有指定,这将寻找conf / spark-defaults.conf.
–driver-memory MEM驱动程序内存 (e.g. 1000M, 2G) (默认: 1024M).
–driver-java-options传递给驱动程序的额外的Java选项.
–driver-library-path传递给驱动程序额外的库路径.
–driver-class-path传递给驱动程序额外的类路径. 请注意,添加了-jars的jar会自动包含在类路径中.
–executor-memory MEM每个执行器的内存 (e.g. 1000M, 2G) (默认: 1G).
–proxy-user NAME在提交申请时模拟的用户.
–help, -h显示此帮助消息并退出
–verbose, -v打印debug输出
–version,打印当前Spark版本

Spark standalone with cluster deploy mode only:

参数含义
–driver-cores NUM驱动程序内核数 (默认: 1).
###Spark standalone or Mesos with cluster deploy mode only:

参数含义
–supervise失败时重新启动驱动程序。
–kill SUBMISSION_ID杀死指定的驱动程序。
–status SUBMISSION_ID请求指定的驱动程序的状态。

Spark standalone and Mesos only:

参数含义
–total-executor-cores NUM所有执行器总共的内核数.

Spark standalone and YARN only:

参数含义
–executor-cores NUM每一个执行器的内核数。(默认: 1 在YARN模式中, 或者是工作器在standalone模式下的所有可用内核 )

YARN-only:

参数含义
–driver-cores NUM驱动程序内核数, 仅在cluster模式下(默认: 1).
–queue QUEUE_NAME要提交的YARN队列 (默认: “default”).
–num-executors NUM要发起的执行器的数目 (默认: 2).
–archives ARCHIVES用逗号分隔要提取到每个执行者的工作目录的档案列表。
–principal PRINCIPALPrincipal 用于在安全的HDFS上登录 KDC。
–keytab KEYTAB包含上面指定的主体的keytab的文件的完整路径。 该密钥表将被复制到通过安全分布式缓存运行应用程序主机的节点,以便定期更新登录凭证和委托令牌。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark