您的位置：首页 > 运维架构

Spark来监控hdfs里的文件，并用wordcount计算

2017-03-13 18:34 447 查看

import org.apache.spark._
import org.apache.spark.streaming._
object Stream {
def main(args: Array[String]) {
val sparkConf = new SparkConf().setMaster("spark://10.149.252.106:7077").setAppName("Streaming");
// 创建Streaming的上下文，包括Spark的配置和时间间隔，这里时间为间隔20秒
val ssc = new StreamingContext(sparkConf,Seconds(10));
// 指定监控的目录
//    val lines = ssc.textFileStream("file:///home/ubuntu/sparkJar/test");
val lines = ssc.textFileStream("hdfs://10.149.252.106:9000/input");
val words = lines.flatMap(_.split(" "));
val wordCount = words.map(x => (x,1)).reduceByKey(_+_);
wordCount.saveAsTextFiles("hdfs://10.149.252.106:9000/output/")
wordCount.print();
ssc.start();
ssc.awaitTermination();
}
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航