2 大数据实战系列-spark shell wordcount
2017-09-30 12:50
405 查看
1 启动spark shell
cd /home/data/app/hadoop/spark-2.1.1-bin-hadoop2.7/bin ./spark-shell --master spark://shulaibao2:7077 --executor-memory 512m --driver-memory 4540m
初始化sc->SparkContext spark->SparkSession
2 创建hdfs数据源
2.1创建hdfs文件夹Hadoop fs - mkdir -p /home/hadoop/upload/test
2.2 上传数据源到hdfs
Hadoop fs -put /home/data/app/hadoop/hadoop-2.8.0/etc/hadoop/core-site.xml /home/hadoop/upload/test
2.3 验证hdfs文件列表
Hadoop fs -ls /home/hadoop/upload/test
3 wordcount
Scala-> spark shell:scala>val rdd=sc.textFile("hdfs://shulaibao2:9010/home/hadoop/upload/test/core-site.xml") scala>rdd.cache() scala>val wordcount=rdd.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_) scala>wordcount.take(10) scala>val wordsort=wordcount.map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)) scala>wordsort.take(10)
Python -> spark submit:
spark = SparkSession.builder.appName("WordCountAPP").getOrCreate() lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0]) print(lines.collect()) counts = lines.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add) output = counts.collect() for (word, count) in output: print("%s: %i" % (word, count)) spark.stop()
java version:
备注:楼主也是java程序员,但使用sprak确实不适合使用java开发。
例如:
List<Tuple2<String, Integer>> output = counts.collect(); for (Tuple2<?,?> tuple : output) { System.out.println(tuple._1() + ": " + tuple._2()); }
元组、列表都是scala封装jar不容易抓到本质的数据结构
Java做数据分析代码冗长_.split(” “)或者lambda函数,java需要实现FlatMapFunction接口
相关文章推荐
- DStream操作实战:1.SparkStreaming接受socket数据,实现单词计数WordCount
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例(1)
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop伪分布模式并运行Wordcount(2)
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例(1)
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop-伪分布模式并运行Wordcount(2)
- 【云星数据---Apache Flink实战系列(精品版)】:Flink流处理API详解与编程实战001-Flink基于流的wordcount示例001
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop单机模式并运行Wordcount(1)
- 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop单机模式并运行Wordcount(2)
- 大数据生态系统基础:Apache Spark(三):Java 版本编程实例(WordCount)
- Apache Spark技术实战之1 -- KafkaWordCount
- sparkshell中执行wordcount
- 从WordCount看Spark大数据处理的核心机制(1)
- 分别用Java、Scala、spark-shell开发wordcount程序及测试代码
- Spark-shell初体验:WordCount
- spark-shell实现WordCount&按word排序&按count排序
- spark streaming 接收 kafka 数据java代码WordCount示例
- 07-天亮大数据系列教程之streaming运行流程与shell实现wordcount
- spark系列 - wordCount( java版)
- spark cluster 下 spark-shell/spark-spark提交wordcount sparksql Demo
- 从WordCount看Spark大数据处理的核心机制(2)