Mapreduce
实验目的:
搭建MapReduce编程模型
配置Eclipse和Maven
Hadoop集群与启动顺序
MapReduce的WordCount应用
书上代码练习
学习编写一个MapReduce程序
实验要求:
学会使用Maven创建一个工程项目
配置好运行环境与运行条件
结合上课课件自己输WordCount程序代码
运行并得出结果
在Hadoop集群中提取运行
还原课本案例
完成排序与二次排序的操作
实验环境:
一台独立PC机或虚拟机
已安装JDK
已完成Hadoop平台的搭建
已完成Eclipse安装成功
已完成Maven
一、搭建mapreduce编程模型
1、新建mapreduce工程项目
2、配置pom.xml依赖文件
3、导入hadoop配置文件
4、启动Hadoop集群
5、查看节点状态
6、新建WordCountApp.java
7、新建SortApp.java
8、新建IntPair.java
9、新建SecondrySort.java
10、使用mvn clean package -DskipTests打包成hadoop-1.0-SNAPSHOT.jar
11、查看打包是否成功
12、将jar包上传/home/admin/hadoop-2.7.3/share/hadoop/mapreduce/下
二、MapReduce词频统计编程实例
1、将测试数据上传到HDFS目录中。
2、提交MapReduce作业到集群运行
3、查看作业输出结果。
三、使用MapReduce实现排序
1、将测试测试数据上传到HDFS目录中。
Hadoop fs -mkdir /sort
Hadoop fs sort.txt /sort
2、提交MapReduce作业到集群运行。
3、查看作业输出结果。
一、四、使用MapReduce实现二次排序
1、提交作业到集群运行。
将测试数据上传到HDFS目录中。
2、提交MapReduce作业到集群运行。
3、查看作业输出结果。
4、浏览器查看
- MapReduce:Google的人间大炮
- MapReduce中作业调度器
- Hadoop Core_MapReduce总结(四)
- IBM推动MapReduce发布Eclipse插件
- mapreduce.shuffle set in yarn.nodemanager.aux-services is invalid
- **Hadoop纵览之(三)分布式计算框架MapReduce**
- Cluster Computing and MapReduce Lecture
- MapReduce初级案例
- OpenRS—— 开放式遥感数据处理与服务平台 OpenRS-Cloude:基于MapReduce的并行遥感处理系统
- MapReduce多文件输出
- 写在MapReduce问题的回复后
- hadoop之MapReduce调用R的一次失败的总结~
- 快速理解Hive的数据存储格式及mapreduce底层原理
- MapReduce简介以及F#的实现
- hadoop之MapReduce调用R的一次失败的总结~(续一)
- MongoDB学习(五):聚合、管道与MapReduce
- MapReduce
- Google MapReduce/GFS/BigTable三大技术的中文版
- Mapreduce分区加排序
- MapReduce和分布式数据库之争