Spark开发-网站点击率排名方法
2017-09-12 23:35
218 查看
网站的点击率排名。
思路
1、先对文本进行分隔做key value 的转换
2、基于key value的键值对做reduceByKey的操作
3、将key 和value的位置调换,编程value key
4、对key进行排序
5、重复第3点的工作。
代码如下:
在hdfs上面我们可以看到有2个文件,如果我们只想看到一个文件应该怎么操作呢?
我们只需要在sortByKey的时候指定task的个数就可以了
思路
1、先对文本进行分隔做key value 的转换
2、基于key value的键值对做reduceByKey的操作
3、将key 和value的位置调换,编程value key
4、对key进行排序
5、重复第3点的工作。
代码如下:
sc.textFile("/input/passwd").flatMap(_.split(":")).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile("/output/sortWord")
在hdfs上面我们可以看到有2个文件,如果我们只想看到一个文件应该怎么操作呢?
我们只需要在sortByKey的时候指定task的个数就可以了
sc.textFile("/input/passwd").flatMap(_.split(":")).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false,1).map(pair=>(pair._2,pair._1)).saveAsTextFile("/output/sortWord1")
相关文章推荐
- 分析网站的整理情况(排名、点击率、转化率等等)
- 百度恢复网站而不给予排名,10大外链获取方法 提高网站权重
- csdn上排名第一的帖子《开发人员一定要加入收藏夹的网站》
- 网站后台开发常见BUG及解决方法
- 基于rails的schedule网站开发(13):用send 方法改写authenticated?(...)
- MVC网站开发:自定义扩展方法ModelStateExtension获取ModelState中的错误信息
- iOS开发-简单方法实现扒下网站html保存到本地文件
- .Net Core MVC 网站开发(Ninesky) 2.4、添加栏目与异步方法
- 删除百度搜索结果页山寨网站排名的方法
- csdn上排名第一的帖子《开发人员一定要加入收藏夹的网站》
- 网站开发中常用js表单取值方法
- [转载]提升网站在GOOGLE中排名的方法
- android开发网站无法访问解决方法
- 网站图片自然排名优化方法
- csdn上排名第一的帖子《开发人员一定要加入收藏夹的网站》
- 开发某企业网站遇到的问题及解决方法
- 网站SEO优化方法,技巧和SEO搜索引擎优化排名研究
- 网站制作开发的步骤和方法
- 网站开发执行文档(页面界面和功能说明文档)编写方法
- 网站url路径优化方法完全讲解 (url优化、基于tp5、API接口开发)