在Spark上运行WordCount程序
2015-03-25 18:25
447 查看
1.编写程序代码如下:
Wordcount.scala
2.将程序打包成wordcount.jar
3.编写wordcount.sh脚本
其中的wordcount.txt是要统计的文本。
4.将wordcount.txt文件上传到hdfs中对应的目录,并启动Spark集群
5.执行脚本
Wordcount.scala
package Wordcount import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * @author hadoop * 统计字符出现个数 * */ object Wordcount { def main(args: Array[String]) { if(args.length < 1) { System.err.println("Usage: <file>") System.exit(1) } val conf = new SparkConf() val sc = new SparkContext(conf) //SparkContext 是把代码提交到集群或者本地的通道,我们编写Spark代码,无论是要本地运行还是集群运行都必须有SparkContext的实例 val line = sc.textFile(args(0)) //把读取的内容保存给line变量,其实line是一个MappedRDD,Spark的所有操作都是基于RDD的 line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println) sc.stop } }
2.将程序打包成wordcount.jar
3.编写wordcount.sh脚本
#!/bin/bash cd $SPARK_HOME/bin spark-submit \ --master spark://192.168.1.154:7077 \ --class Wordcount.Wordcount \ --name wordcount \ --executor-memory 400M \ --driver-memory 512M \ /usr/local/myjar/wordcount.jar \ hdfs://192.168.1.154:9000/user/hadoop/wordcount.txt
其中的wordcount.txt是要统计的文本。
4.将wordcount.txt文件上传到hdfs中对应的目录,并启动Spark集群
5.执行脚本
相关文章推荐
- JDK8+Scala2.11+spark-2.0.0+Intellij2017.3.4开发wordcount程序并在集群中运行
- 将java开发的wordcount程序部署到spark集群上运行
- Spark在Yarn上运行Wordcount程序
- Spark在Yarn上运行Wordcount程序
- 将java开发的wordcount程序提交到spark集群上运行
- 将java开发的wordcount程序部署到spark集群上运行
- spark集群搭建与集群上运行wordcount程序
- Spark上提交运行简单WordCount程序---Spark学习笔记(1)
- spark集群上运行helloworld程序--WordCount
- spark运行wordcount程序
- spark学习1——配置hadoop 单机模式并运行WordCount实例(ubuntu14.04 & hadoop 2.6.0)
- ubuntu里第二次运行wordcount程序出错
- Hadoop的安装与配置及示例程序wordcount的运行
- hadoop实例WordCount程序一步一步运行
- 安装Spark Standalone模式/Hadoop yarn模式并运行Wordcount
- 联想ThinkPad S3-S440虚拟机安装,ubuntu安装,Hadoop(2.7.1)详解及WordCount运行,spark集群搭建
- linux下eclipse上运行hadoop自带wordcount程序
- eclipse运行hadoop示例程序wordcount的一些问题
- Eclipse下运行hadoop自带的mapreduce程序--wordcount
- IDEA中运行DirectKafkaWordCount程序