您的位置：首页 > 大数据 > Hadoop

Spark优化：禁止应用程序将依赖的Jar包传到HDFS

2016-01-11 16:52 423 查看

每次当你在Yarn上以Cluster模式提交Spark应用程序的时候，通过日志我们总可以看到下面的信息：

21 Oct 2014 14:23:22,006INFO  [main] (org.apache.spark.Logging$class.logInfo:59)  -
Uploading file:/home/spark-1.1.0-bin-2.2.0/lib/spark-assembly-1.1.0-hadoop2.2.0.jar to
hdfs://my/user/iteblog/...../spark-assembly-1.1.0-hadoop2.2.0.jar
21 Oct 2014 14:23:23,465INFO  [main] (org.apache.spark.Logging$class.logInfo:59)  -
Uploading file:/export1/spark/spark-1.0.1-bin-hadoop2/spark-1.0-SNAPSHOT.jar to
hdfs://my/user/iteblog/.sparkStaging/application_1413861490879_0010/spark-1.0-SNAPSHOT.jar

　　这是Spark自己将运行时候需要依赖的Java包上传到HDFS上，而且每次运行Spark Application的时候都会上传，这时候你会发现你的hdfs://mycluster/user/iteblog/.sparkStaging目录下面存在了大量的Jar文件，这最少存在两个不好的地方：

　　1、每次上传Jar文件，多少也会影响到程序的运行速度；

　　2、当在HDFS中上传了大量的Jar文件，这会产生大量的小文件，会对HDFS有影响。

　　所以我们想是否可以在HDFS上面建立一个公共的lib库存放目录，每次运行Spark的时候，只要我们程序依赖的Jar包存在HDFS中的lib库中，那么这时候我们就不上传该Jar。其实是可以的。我们可以通过配置相应的环境变量实现，步骤如下：

bin/hadoop fs -mkdir /home/iteblog/spark_lib
bin/hadoop fs -put  spark-assembly-1.1.0-hadoop2.2.0.jar
/home/iteblog/spark_lib/spark-assembly-1.1.0-hadoop2.2.0.jar

然后编辑spark-default.conf文件，添加以下内容：

spark.yarn.jar=hdfs://my/home/iteblog/spark_lib/spark-assembly-1.1.0-hadoop2.2.0.jar

也就是使得spark.yarn.jar指向我们HDFS上的Spark lib库。

然后你再去提交应用程序

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn-cluster \
--num-executors 3 \
--driver-memory 512m \
--executor-memory 2g \
--executor-cores 1 \
lib/spark-examples*.jar \
10

你可以看到日志里面已经不需要上传spark-assembly-1.1.0-hadoop2.2.0.jar文件了。

转载自 http://www.iteblog.com/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： spark 优化

相关文章推荐

新的分享

章节导航