Spark学习总结一 单词计数
2017-08-02 15:37
453 查看
一、场景:统计文件单词个数
二、Scala代码实现:
package cn.com.git.scala.spark.test
import org.apache.spark._
import org.apache.spark.SparkContext._
import org.apache.spark.rdd.RDD.rddToPairRDDFunctions
object SparkWordCount {
def FILE_NAME: String = "word_count_results_";
def main(args: Array[String]) {
val sc = new SparkContext("local", "WordCount", System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))
//本地文件
val filePath = "E:/temp/demo.txt";
val textFile = sc.textFile(filePath);
//空格作为分隔符,统计单词数量
val wordCounts = textFile.flatMap(line => line.split(" ")).map(
word => (word, 1)).reduceByKey((a, b) => a + b)
//结果保存在文件中
wordCounts.repartition(1).saveAsTextFile(FILE_NAME + System.currentTimeMillis())
println("Word Count program running results are successfully saved.");
}
}
三、执行结果
工程目录下生成结果文件夹:word_count_results_1500537461876(毫秒数);
包括子文件:_SUCCESS 、part-00000;
统计结果在part-00000文件中:
(F48_20170531_090622_75403,9)
(INFO,9)
(mon.router.r,9)
(296,9)
(2017-06-16-15:33:20.240,9)
(pquery.CifInfoQueryByAcct,9)
二、Scala代码实现:
package cn.com.git.scala.spark.test
import org.apache.spark._
import org.apache.spark.SparkContext._
import org.apache.spark.rdd.RDD.rddToPairRDDFunctions
object SparkWordCount {
def FILE_NAME: String = "word_count_results_";
def main(args: Array[String]) {
val sc = new SparkContext("local", "WordCount", System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))
//本地文件
val filePath = "E:/temp/demo.txt";
val textFile = sc.textFile(filePath);
//空格作为分隔符,统计单词数量
val wordCounts = textFile.flatMap(line => line.split(" ")).map(
word => (word, 1)).reduceByKey((a, b) => a + b)
//结果保存在文件中
wordCounts.repartition(1).saveAsTextFile(FILE_NAME + System.currentTimeMillis())
println("Word Count program running results are successfully saved.");
}
}
三、执行结果
工程目录下生成结果文件夹:word_count_results_1500537461876(毫秒数);
包括子文件:_SUCCESS 、part-00000;
统计结果在part-00000文件中:
(F48_20170531_090622_75403,9)
(INFO,9)
(mon.router.r,9)
(296,9)
(2017-06-16-15:33:20.240,9)
(pquery.CifInfoQueryByAcct,9)
相关文章推荐
- spark wordCount单词计数及原理解析
- Spark Java 单词计数(WordCount)
- spark学习笔记总结-spark入门资料精化
- Spark实现WordCount单词计数
- Spark Streaming总结-----学习笔记
- 单词学习软件之总结
- 【学习总结】数学-基本计数方法
- Spark学习笔记总结-超级经典总结
- Spark 学习总结
- spark 单词计数
- Spark学习阶段总结
- 单词接龙(NOIP2000)学习总结
- Spark学习笔记总结
- 关于Spark学习的问题总结
- Hadoop 之 Wordcount 单词计数 (学习笔记)
- Spark (Python版) 零基础学习笔记(三)—— Spark Actions总结及举例
- [置顶] 【spark 词频统计】spark单词进行计数升级版
- spark python初学(一)针对某个单词计数版本0
- Spark Streaming源码学习总结(一)
- Spark SQL和DataFrame的学习总结