spark累加器介绍-案例通过累加器统计文章中空白行数量
2017-03-06 13:44
197 查看
1.累加器介绍
累加器(Accumulator)是一种只能通过关联操作进行“加”操作的变量,因此具有高效的并行计算能力。2.简单累加器创建步骤
1.首先,通过accumulator(v)方法创建Accumulator并初始化为0val accum = sc.accumulator(0)2.然后,通过运算符+= 进行累加操作
x => accum+=x
3.通过value方法读取累加器的值
accum.value
3.完整代码及结果
val accum = sc.accumulator(0) sc.parallelize(Array(1,2,3,4)).foreach(x => accum+=x) println(accum.value) // 10
4.累加器小案例--统计文章中空白行个数
复制下载的spark源码中的README.md中的几行,如下图所示:在累加空行的时候,我们通过split函数将单词切分开,然后输出到指定的目录中,可以查看输出后的结果。
实现代码链接如下:spark中用scala编写累加器小程序统计文章中空白行
http://download.csdn.net/detail/rivercode/9771759
相关文章推荐
- 发表在IBM Developworks上的文章,Spark Streaming 图片处理案例介绍
- 第110课: Spark Streaming电商广告点击综合案例通过updateStateByKey等实现广告点击流量的在线更新统计
- 第110讲: Spark Streaming电商广告点击综合案例通过updateStateByKey等实现广告点击流量的在线更新统计
- dedecms统计栏目文章总数量
- SPARK 第4期:通过案例实战掌握spark sql(dataframe)
- 【HDU1214】【并查集】【通过f[x] == -1 统计树的数量】
- 统计目录下所有文章单词数量
- CSDN 各类数量的统计长期错误(博客发表文章数、博客访问数、博客排名、资源数、论坛排名)——莫名其妙,改不了还是不打算改?
- s通过案例彻底详解spark中DAG的逻辑视图的产生机制和过程 -- (视频笔记)(重点)
- 第2期Spark纯实战公益大讲坛:通过案例实战掌握Spark编程模型内幕
- 通过数据库读取,获取MVM各扫描任务的漏扫数量趋势统计以及详细信息查询
- 如何统计每个用户发表的各类文章数量
- Linux集群服务知识点总结及通过案例介绍如何实现高性能web服务(一)
- 统计一篇文章的单词数量,并且输出频率前10单词的数量
- phpcms教程之增加统计代码可以统计每天发表文章数量
- spark 官网例子 统计一篇文章包含字母a的个数
- Linux集群服务知识点总结及通过案例介绍如何实现高性能web服务
- Java正则表达式(三)、代码量统计工具(统计java源文件中注释、代码、空白行数量)
- Linux集群服务知识点总结及通过案例介绍如何实现高性能web服务
- 第3期Spark纯实战公益大讲坛:通过案例实战掌握Spark内核运行内幕