本地开发spark代码上传spark集群服务并运行(基于spark官网文档)
2015-11-25 20:41
567 查看
import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val logFile = "/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) } }
打包文件:
File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices
点击Output Layout 看看是否没有第三方jar包,因为你使用spark集群环境,所以你不需要第三方jar包
重新build:
Build-->>Build Artifcat ..--->>build 或者rebuild
执行后 就会在D:\mygit\study-scala\out\artifacts\study_scala_jar目录下看到study-scala.jar
上传到spark集群服务器的 spark_home下的myApp下
上传/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md到HDFS中
提交spark任务:
./bin/spark-submit --class "SimpleApp" --master local[4] myApp/study-scala.jar
执行结果为a:60,b:29
转载: http://blog.csdn.net/stark_summer/article/details/42528081
相关文章推荐
- 扫地僧C++视频学习记录
- matlab、C++混合编程
- python递归搜索
- C++中 std::vector用法
- eclipse常用快捷键
- 用java实现栈,并实现min方法
- Python 论list倒置的几种方法
- 学习Struts2_0200
- C++设计模式 之 “对象性能” 模式:Singleton、Flyweight
- delphi 数据连接规范
- 电脑翻墙登陆google
- python基础知识--列表和元组
- Spring MVC框架及标签库
- vb.net_一个半成品
- 整合Kafka到Spark Streaming——代码示例和挑战
- 常用的python随机数
- Java的一些引用方面的问题
- eclipse快捷键
- PHP - session编码和解码
- Java的对象问题