您的位置:首页 > 运维架构 > 网站架构

Spark开发-网站点击率排名方法

2017-09-12 23:35 218 查看
网站的点击率排名。

思路

1、先对文本进行分隔做key value 的转换

2、基于key value的键值对做reduceByKey的操作

3、将key 和value的位置调换,编程value key

4、对key进行排序

5、重复第3点的工作。

代码如下:

sc.textFile("/input/passwd").flatMap(_.split(":")).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile("/output/sortWord")


在hdfs上面我们可以看到有2个文件,如果我们只想看到一个文件应该怎么操作呢?



我们只需要在sortByKey的时候指定task的个数就可以了

sc.textFile("/input/passwd").flatMap(_.split(":")).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false,1).map(pair=>(pair._2,pair._1)).saveAsTextFile("/output/sortWord1")


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  spark word