Spark学习笔记-如何运行wordcount(使用jar包)
2014-11-09 22:07
671 查看
IDE:eclipse
Spark:spark-1.1.0-bin-hadoop2.4
scala:2.10.4
创建scala工程,编写wordcount程序如下
右击工程->export,生成jar包 名称spark.jar,路径/usr/local/myjar/spark.jar
启动spark集群,自己写一个hadoop.txt,上传hadoop.txt到集群的/user/hadoop/文件夹之下
HDFS的操作见此文/article/6336026.html
写一个脚本,用来执行这个程序
存放路径:/usr/local/myjar/WordCount.sh
执行脚本
进入脚本所在路径:/usr/local/myjar,执行脚本:./WordCount.sh
一段时间后可见结果。
Spark:spark-1.1.0-bin-hadoop2.4
scala:2.10.4
创建scala工程,编写wordcount程序如下
package com.luogankun.spark.base import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * 统计字符出现次数 */ object WorkCount { def main(args: Array[String]) { if (args.length < 1) { System.err.println("Usage: <file>") System.exit(1) } val conf = new SparkConf() val sc = new SparkContext(conf) //SparkContext 是把代码提交到集群或者本地的通道,我们编写 Spark代码,无论是要运行本地还是集群都必须有 SparkContext 的实例。 val line = sc.textFile(args(0)) //把读取的内容保存给line变量,其实line是一个MappedRDD,Spark的代码,都是基于RDD操作的; line.flatMap(_.split("")).map((_, 1)).reduceByKey(_+_).collect.foreach(println) sc.stop } }
右击工程->export,生成jar包 名称spark.jar,路径/usr/local/myjar/spark.jar
启动spark集群,自己写一个hadoop.txt,上传hadoop.txt到集群的/user/hadoop/文件夹之下
HDFS的操作见此文/article/6336026.html
写一个脚本,用来执行这个程序
存放路径:/usr/local/myjar/WordCount.sh
#!/bin/bash cd $SPARK_HOME/bin spark-submit \ --master spark://master:7077 \ --class com.luogankun.spark.base.WorkCount \ --name wordcount \ --executor-memory 400M \ --driver-memory 512M \ /usr/local/myjar/spark.jar \ hdfs://master:9000/user/hadoop/hadoop.txt
执行脚本
进入脚本所在路径:/usr/local/myjar,执行脚本:./WordCount.sh
一段时间后可见结果。
相关文章推荐
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行(可以使用)
- Hadoop学习1_在使用命令行运行WordCount时,遇到的jar命令说明
- [1].Spark 学习笔记 使用java ---word count
- Spark上提交运行简单WordCount程序---Spark学习笔记(1)
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行
- 蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验
- Spark学习笔记——安装和WordCount
- 【学习笔记】用Hadoop在MapReduce中WordCount简单程序运行详细流程
- Spark学习(二):使用Spark开发wordcount程序
- Spark2.x学习笔记:17、Spark Streaming之HdfsWordCount 学习
- spark源码学习(八):spark具体是如何使用集群的资源去运行任务
- windows下使用idea maven配置spark运行环境、运行WordCount例子以及碰到的问题
- 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计
- 第11课:彻底解密WordCount运行原理学习笔记
- hadoop学习笔记-3-运行wordcount示例
- hadoop学习(7)—— 使用yarn运行mapreduce一个简单的wordcount示例
- Hadoop小兵笔记【三】利用Eclipse将wordcount打包成可以运行在hadoop上的jar包
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行
- Spark2.x学习笔记:16、Spark Streaming入门实例NetworkWordCount
- Spark 使用Python在pyspark中运行简单wordcount