scala编写的Spark程序远程提交到服务器集群上运行
2017-01-05 22:44
423 查看
一.需要的软件:
eclipse
相应版本的scalaIDE
与集群一样的spark安装包,主要是要用到spark中的jar包
与集群一样的hadoop安装包
与hadoop版本对应的winutil.exe,hadoop.dll(只要版本差距不大不一样也没关系)
二.步骤
(一)在eclipse中安装对应版本的ScalaIDE,具体安装见网上。
(二)复制winutil.exe,hadoop.dll到hadoop的bin文件下,并设置hadoop的环境变量,具体设置方法也可以在网上找到。
(三)在eclipse中建立scala工程,与java工程类似,在src下建立package和相应的scala object文件。
代码示例:
(四)build path
将spark安装包下的jars文件夹下的jar包导入scala project中。
(五)run as Scala Application
运行结果:
(六)出现的错误:
错误一:
原因:使用file:///指定为本地路径
错误二:
原因:找不到jar包,是因为在运行之前没有把我们的项目先导成jar包放到我们指定的路径下。因此,只需要导出jar包就可以了。
错误三:
系统变量设置了HADOOP_HOME也不行,找不到winutil.exe。
可以在程序中直接设定环境变量
eclipse
相应版本的scalaIDE
与集群一样的spark安装包,主要是要用到spark中的jar包
与集群一样的hadoop安装包
与hadoop版本对应的winutil.exe,hadoop.dll(只要版本差距不大不一样也没关系)
二.步骤
(一)在eclipse中安装对应版本的ScalaIDE,具体安装见网上。
(二)复制winutil.exe,hadoop.dll到hadoop的bin文件下,并设置hadoop的环境变量,具体设置方法也可以在网上找到。
(三)在eclipse中建立scala工程,与java工程类似,在src下建立package和相应的scala object文件。
代码示例:
import org.apache.spark.SparkContext._ import org.apache.spark.{SparkConf,SparkContext} object RemoteDebug { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Spark Pi").setMaster("spark://your-hadoop-master:7077") .setJars(List("file:///E:/scalatest.jar")) System.setProperty("hadoop.home.dir", "D:/Program Files/hadoop-2.6.5"); val spark = new SparkContext(conf) val slices = if (args.length > 0) args(0).toInt else 2 val n = 100000 * slices val count = spark.parallelize(1 to n, slices).map { i => val x = Math.random * 2 - 1 val y = Math.random * 2 - 1 if (x * x + y * y < 1) 1 else 0 }.reduce(_ + _) println("Pi is roughly " + 4.0 * count / n) spark.stop() } }
(四)build path
将spark安装包下的jars文件夹下的jar包导入scala project中。
(五)run as Scala Application
运行结果:
(六)出现的错误:
错误一:
Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 0.0 failed 4 times, most recent failure: Lost task 1.3 in stage 0.0 (TID 5, 222.31.67.83): java.io.IOException: No FileSystem for scheme: E at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2584) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370) at org.apache.spark.util.Utils$.getHadoopFileSystem(Utils.scala:1822) at org.apache.spark.util.Utils$.doFetchFile(Utils.scala:665) at org.apache.spark.util.Utils$.fetchFile(Utils.scala:449) at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$updateDependencies$5.apply(Executor.scala:488) at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$updateDependencies$5.apply(Executor.scala:480) at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733) at scala.collection.mutable.HashMap$$anonfun$foreach$1.apply(HashMap.scala:99) at scala.collection.mutable.HashMap$$anonfun$foreach$1.apply(HashMap.scala:99) at scala.collection.mutable.HashTable$class.foreachEntry(HashTable.scala:230) at scala.collection.mutable.HashMap.foreachEntry(HashMap.scala:40) at scala.collection.mutable.HashMap.foreach(HashMap.scala:99) at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:732) at org.apache.spark.executor.Executor.org$apache$spark$executor$Executor$$updateDependencies(Executor.scala:480) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:252) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.java:745)
原因:使用file:///指定为本地路径
错误二:
17/01/05 22:16:00 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 222.31.67.133): java.lang.RuntimeException: Stream '/jars/scalatest.jar' was not found. at org.apache.spark.network.client.TransportResponseHandler.handle(TransportResponseHandler.java:222) at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:121) at org.apache.spark.network.server.TransportChannelHandler.channelRead0(TransportChannelHandler.java:51) at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105) at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) at io.netty.handler.timeout.IdleStateHandler.channelRead(IdleStateHandler.java:266) at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:103) at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) at org.apache.spark.network.util.TransportFrameDecoder.channelRead(TransportFrameDecoder.java:85) at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:846) at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:131) at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:511) at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468) at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382) at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354) at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111) at java.lang.Thread.run(Thread.java:745)
原因:找不到jar包,是因为在运行之前没有把我们的项目先导成jar包放到我们指定的路径下。因此,只需要导出jar包就可以了。
错误三:
系统变量设置了HADOOP_HOME也不行,找不到winutil.exe。
可以在程序中直接设定环境变量
System.setProperty("hadoop.home.dir", "D:/Program Files/hadoop-2.6.5");
相关文章推荐
- Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
- win10下将spark的程序提交给远程集群中运行
- 编写Spark程序并提交到集群上运行
- Spark学习笔记7-在eclipse里用scala编写spark程序(单机和集群运行)
- 本地Spark程序提交到hadoop集群运行流程
- JDK8+Scala2.11+spark-2.0.0+Intellij2017.3.4开发wordcount程序并在集群中运行
- Flink 代码方式提交程序到远程集群运行
- 通过jupyter远程编写代码,并远程提交到spark集群执行
- Spark on yarn--几种提交集群运行spark程序的方式
- eclipse编写scala应用运行在spark集群上
- eclipse或idea中开发spark程序本地运行以及提交集群运行
- 在JAVA应用中远程提交MapReduce程序至Hadoop集群运行
- IDEAJ中Scala打包提交Spark集群运行
- eclipse远程提交scala到spark集群问题
- 将java开发的wordcount程序提交到spark集群上运行
- Spark官方文档——本地编写并运行scala程序
- 第94讲, 使用Scala开发集群运行的Spark 实现在线黑名单过滤程序
- sbt打包Scala写的Spark程序,打包正常,提交运行时提示找不到对应的类
- 使用Intellij IDEA开发并提交Spark应用到远程Spark集群
- MapReduce程序打成jar包在远程服务器运行