Spark来监控hdfs里的文件,并用wordcount计算
2017-03-13 18:34
447 查看
import org.apache.spark._ import org.apache.spark.streaming._ object Stream { def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("spark://10.149.252.106:7077").setAppName("Streaming"); // 创建Streaming的上下文,包括Spark的配置和时间间隔,这里时间为间隔20秒 val ssc = new StreamingContext(sparkConf,Seconds(10)); // 指定监控的目录 // val lines = ssc.textFileStream("file:///home/ubuntu/sparkJar/test"); val lines = ssc.textFileStream("hdfs://10.149.252.106:9000/input"); val words = lines.flatMap(_.split(" ")); val wordCount = words.map(x => (x,1)).reduceByKey(_+_); wordCount.saveAsTextFiles("hdfs://10.149.252.106:9000/output/") wordCount.print(); ssc.start(); ssc.awaitTermination(); } }
相关文章推荐
- spark1.6从hdfs上读取文件运行wordcount
- spark从hdfs上读取文件运行wordcount
- spark从hdfs上读取文件运行wordcount
- spark读hdfs文件实现wordcount并将结果存回hdfs
- spark读hdfs文件实现wordcount并将结果存回hdfs
- spark streaming 的wordcount程序,从hdfs上读取文件中的内容并计数
- Spark WordCount 读写hdfs文件 (read file from hadoop hdfs and write output to hdfs)
- Spark读取HDFS文件,文件格式为GB2312,实现WordCount示例
- Spark Run WordCount On Hdfs using Scala
- Spark组件之Spark Streaming学习4--HdfsWordCount 学习
- spark【例子】单词计算(wordcount) 词频排序(TopK)
- mapreduce Wordcount输入文件在hdfs上的实例
- Spark源码分析(1) 从WordCount示例看Spark延迟计算原理
- Spark 加强版WordCount ,统计日志中文件访问数量
- spark实时计算kafka消息队列中的wordcount
- Spark及HDFS环境下使用python的wordcount实例
- Hadoop:第二个程序操作HDFS -> 【获取Datanode名】【写文件】【WordCount计数】
- 基于HDFS的实时计算和wordcount程序
- SparkStreaming实现HDFS的wordCount(java版)
- Spark Streaming实现实时WordCount,DStream的使用,updateStateByKey(func)实现累计计算单词出现频率