Spark Standalone模式伪分布式环境搭建
2014-06-20 00:15
465 查看
前提:安装好jdk1.7,hadoop
安装步骤:
[b]1、安装scala[/b]
下载地址:http://www.scala-lang.org/download/
配置环境变量:
export SCALA_HOME=/..../scala
export PATH=.:$SCALA_HOME/bin ....
验证:scala -version
[b]2、安装spark[/b]
使用自己编译过的对应自己hadoop的spark
配置环境变量:
export SPARK_HOME=/.../spark
export PATH=.:$SPARK_HOME/bin ....
修改spark配置文件:
1)$SPARK_HOME/conf/spark-env.sh
export SPARK_MASTER_IP=hadoop000
export SPARK_WORKER_CORES=1 #WorkNode分出几核给spark使用
export SPARK_WORKER_INSTANCES=1 #WorkNode使用几个spark实例,一般一个就行了
export SPARK_WORKER_MEMORY=1G #WorkNode分出多少内存给spark使用
export SPARK_WORKER_PORT=8888 #指定spark运行时的端口号
2)$SPARK_HOME/conf/slave.sh
配置worknode节点hostname,一行配置一个
3)$SPARK_HOME/conf/spark-defaults.conf (可选配置)
参数配置参见:http://spark.apache.org/docs/latest/configuration.html
spark.master spark://hadoop000:7077
spark.local.dir /home/spark/spark_shuffle/ #配置spark shuffle数据存放路径
spark.executor.memory 1g
[b]3、启动spark[/b]
$SPARK_HOME下的sbin和bin说明:
sbin:存放的是启动和停止spark集群等的命令;
bin:存放的是应用程序(spark-shell)启动和停止等的命令。
启动spark集群(sbin目录下):start-all.sh
启动后浏览器访问:http://hadoop000:8080/
注:hadoop000为hostname,配置的属性可以在4040端口查看到,形如:http://hadoop000:4040/environment/
启动spark-shell(bin目录下):
1)单机启动方式:spark-shell
2)集群启动方式:
spark-shell --master spark://hadoop000:7077
默认情况下Application的Memory是512M,申请所有的CPU资源;
指定executor的memory和cpu core数:spark-shell --master spark://hadoop000:7077 --executor-memory 2g --total-executor-cores 1
注意:executor-memory是每个executor占用的,而executor-cores是所有executor一共占用
具体参数配置的来源:SparkSubmit.scala中的options属性
为了启动方便起见,可以将master配置到spark-defaults.conf中
spark.master spark://hadoop000:7077
再启动spark-shell时,只需要: spark-shell
如果要指定参数,则使用:spark-shell --executor-memory 2g --total-executor-cores 1
详细信息参见官方文档:http://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster
安装步骤:
[b]1、安装scala[/b]
下载地址:http://www.scala-lang.org/download/
配置环境变量:
export SCALA_HOME=/..../scala
export PATH=.:$SCALA_HOME/bin ....
验证:scala -version
[b]2、安装spark[/b]
使用自己编译过的对应自己hadoop的spark
配置环境变量:
export SPARK_HOME=/.../spark
export PATH=.:$SPARK_HOME/bin ....
修改spark配置文件:
1)$SPARK_HOME/conf/spark-env.sh
export SPARK_MASTER_IP=hadoop000
export SPARK_WORKER_CORES=1 #WorkNode分出几核给spark使用
export SPARK_WORKER_INSTANCES=1 #WorkNode使用几个spark实例,一般一个就行了
export SPARK_WORKER_MEMORY=1G #WorkNode分出多少内存给spark使用
export SPARK_WORKER_PORT=8888 #指定spark运行时的端口号
2)$SPARK_HOME/conf/slave.sh
配置worknode节点hostname,一行配置一个
3)$SPARK_HOME/conf/spark-defaults.conf (可选配置)
参数配置参见:http://spark.apache.org/docs/latest/configuration.html
spark.master spark://hadoop000:7077
spark.local.dir /home/spark/spark_shuffle/ #配置spark shuffle数据存放路径
spark.executor.memory 1g
[b]3、启动spark[/b]
$SPARK_HOME下的sbin和bin说明:
sbin:存放的是启动和停止spark集群等的命令;
bin:存放的是应用程序(spark-shell)启动和停止等的命令。
启动spark集群(sbin目录下):start-all.sh
启动后浏览器访问:http://hadoop000:8080/
注:hadoop000为hostname,配置的属性可以在4040端口查看到,形如:http://hadoop000:4040/environment/
启动spark-shell(bin目录下):
1)单机启动方式:spark-shell
2)集群启动方式:
spark-shell --master spark://hadoop000:7077
默认情况下Application的Memory是512M,申请所有的CPU资源;
指定executor的memory和cpu core数:spark-shell --master spark://hadoop000:7077 --executor-memory 2g --total-executor-cores 1
注意:executor-memory是每个executor占用的,而executor-cores是所有executor一共占用
具体参数配置的来源:SparkSubmit.scala中的options属性
为了启动方便起见,可以将master配置到spark-defaults.conf中
spark.master spark://hadoop000:7077
再启动spark-shell时,只需要: spark-shell
如果要指定参数,则使用:spark-shell --executor-memory 2g --total-executor-cores 1
详细信息参见官方文档:http://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster
相关文章推荐
- spark standalone模式 环境搭建
- Spark Standalone模式HA环境搭建
- Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的
- Spark Standalone Mode 在 Win10 下搭建开发调试环境
- spark standalone集群模式搭建
- Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点
- spark standalone 集群环境搭建
- Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的
- Spark Standalone 以及 HDFS系统环境搭建
- Spark1.2集群环境搭建(Standalone+HA) 4G内存5个节点也是蛮拼的
- Spark学习笔记之-Spark Standalone(环境搭建)
- Spark1.2.1集群环境搭建——Standalone模式
- spark standalone模式单节点启动多个executor
- centos下搭建单机和伪分布式hadoop环境-(2)下载安装所需软件+测试hadoop的单机模式
- Spark1.0.0 on Standalone 模式部署
- Spark1.0.0 分布式环境搭建
- spark standalone模式单节点启动多个executor
- windows下hadoop伪分布式模式开发环境的搭建(Cygwin)以及Eclipse集成开发环境下的搭建
- 在myeclipse中使用Java语言进行spark Standalone模式应用程序开发
- Spark1.0.0 on Standalone 模式部署