编写第一个用scala写的spark任务,用sbt打包成jar,并单机模式下运行
2016-11-20 10:01
579 查看
一、编写第一个用scala写的spark应用:
仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序链接如下: http://spark.apache.org/docs/latest/quick-start.html
即:
/* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) } }
整个程序作用是:找到这个文件
YOUR_SPARK_HOME/README.md
中有几个a和几个b。
二、用sbt进行打包成jar:
命令:sbt package具体步骤见 http://spark.apache.org/docs/latest/quick-start.html 中的Self-Contained Applications
打包时候几点注意:
1、
目录结构一定要对
目录结构可以通过find .来看
有点类似cmake的感觉
2、
总时间,近30分钟,开始打开会terminal没现象10分钟,然后开始要各种resolve,之后要下载很多库,我这边网速超慢
sbt是个联网编译器,
Spark的应用用到了很多RDD的变换,来编译这些库都得去网上下相应的包
最后显示,编译时间11s
这时成功完成SimpleApp
三、在本机上测试:
命令为:YOUR_SPARK_HOME/bin/spark-submit \
--class "SimpleApp" \
--master local[4] \
target/scala-2.10/simple-project_2.10-1.0.jar
我对jar的理解就是一个可执行文件了,这个可执行文件在JVM上就可以跑了,local中4是指设置成4个线程,但具体原因我也不知道
注意submit的参数:
--class中 SimpleApp是包名
上传的的jar的地址别写错
一、编写第一个用scala写的spark应用:
仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序链接如下: http://spark.apache.org/docs/latest/quick-start.html
即:
/* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) } }
整个程序作用是:找到这个文件
YOUR_SPARK_HOME/README.md
中有几个a和几个b。
二、用sbt进行打包成jar:
命令:sbt package具体步骤见 http://spark.apache.org/docs/latest/quick-start.html 中的Self-Contained Applications
打包时候几点注意:
1、
目录结构一定要对
目录结构可以通过find .来看
有点类似cmake的感觉
2、
总时间,近30分钟,开始打开会terminal没现象10分钟,然后开始要各种resolve,之后要下载很多库,我这边网速超慢
sbt是个联网编译器,
Spark的应用用到了很多RDD的变换,来编译这些库都得去网上下相应的包
最后显示,编译时间11s
这时成功完成SimpleApp
三、在本机上测试:
命令为:YOUR_SPARK_HOME/bin/spark-submit \
--class "SimpleApp" \
--master local[4] \
target/scala-2.10/simple-project_2.10-1.0.jar
我对jar的理解就是一个可执行文件了,这个可执行文件在JVM上就可以跑了,local中4是指设置成4个线程,但具体原因我也不知道
注意submit的参数:
--class中 SimpleApp是包名
上传的的jar的地址别写错
相关文章推荐
- 编写第一个用scala写的spark任务,用sbt打包成jar,并单机模式下运行
- Spark&Hadoop:scala编写spark任务jar包,运行无法识别main函数,怎么办?
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行(可以使用)
- Spark - IDEA 打包 Scala,Spark Local 模式运行
- sbt打包Scala写的Spark程序,打包正常,提交运行时提示找不到对应的类
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行
- Spark学习笔记7-在eclipse里用scala编写spark程序(单机和集群运行)
- sbt的安装以及用sbt编译打包scala编写的spark程序
- Scala 深入浅出实战经典 第99讲:手动Artifacts打包并运行SBT开发Akka第一个案例
- Intellij IDEA开发环境搭建,scala配置及打包,jar包在spark中的运行
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行
- IDEA【基本配置1】配置SBT 和 scala 并在spark环境中进行wordcount测试(spark集群运行模式)
- 在standalone-cluster模式上运行spark应用程序(用sbt打包)
- 0066 Linux中多个Java文件打包成单个可运行jar文件及其manifest.mf文件编写规则
- sbt使用one-jar对scala统一打包成一个jar文件
- Scala学习1之用sbt和脚本一步编译打包运行scala程序
- spark学习1——配置hadoop 单机模式并运行WordCount实例(ubuntu14.04 & hadoop 2.6.0)
- 周末班补充视频Scala第2课:动手编写和运行自己的第一个Scala函数式编程的实例.
- Local模式下开发第一个Spark程序并运行于集群环境
- 第99讲:手动Artifacts打包并运行SBT开发Akka第一个案例学习笔记