您的位置：首页 > 大数据 > Hadoop

《大数据基础——基于Hadoop与Spark》课后习题——第二章部分答案

2018-12-17 23:55 911 查看

仅用于我个人的学习。书籍为人民邮电出版社的《大数据技术基础——基于Hadoop与Spark》。课后习题选择是我个人认为有用的。记录下来是为了督促我学习:)
共好

1.请指出以下产品之间的关系

VMware Workstation、Linux、JDK、SSH、Hadoop、Eclipse、hadoop-eclipse-plugin

首先应该明确这些产品是什么

VMware Workstation：一款功能强大的桌面虚拟计算机软件，提供用户可在单一的桌面上同时运行不同的操作系统

Linux：Linux是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。通常所说的Linux是采用Linux内核的GNO操作系统。

JDK：JDK是 Java 语言的软件开发工具包。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。

SSH：一种建立在应用层和传输层基础上的安全协议，专为远程登录回话和其他网络服务提供安全性的协议。

Hadoop：一个由Apache基金会所开发的分布式系统基础架构

Eclipse：一个开放源代码的、基于Java的可扩展开发平台（集成开发环境）

hadoop-eclipse-plugin：是一种对hadoop中的文件可视化以及在创建MapReduce Project时辅助引入依赖的jar的插件

简单来说，为了搭建Hadoop项目，我们要使用VMware的虚拟机，即在VMware Workstation中创建Linux虚拟主机（Hadoop运行在JVM之中）。
Hadoop是用Java语言构建的，因此搭建Hadoop平台要使用相对应的java版本和相对应提供商的JDK。java语言常用的集成开发工具IDE为Eclipse等，但是由于原生的Eclipse并不支持Hadoop，必须添加集成插件hadoop-eclipse-plugin等。
由于其分布式的特点，为了保证网络应用之间的数据传输的安全性，我们使用SSH来加密传输数据。

2.Hadoop的3种运行模式的区别

运行模式	运行方式	数据存储	主要作用
Local（Standalne）Mode本地模式	所有程序都运行在同一个JVM中，无守护进程	Linux的本地文件系统	用于测试和调试MapReduce程序
Pseudo-Distributed Mode伪分布模式	守护进程运行在本地机器上，创建不同的JVM实例来实现程序的分布式运行	HDFS	帮助没有足够的机器去部署一个完全分布式环境的用户进行开发
Fully-Distributed Mode完全分布模式	在集群中的每个节点上启动一个守护进程，Map任务和Reduce任务通过调度机制并行地运行于不同的节点之中	HDFS	用户有多台机器去部署一个完全分布式环境时使用

4.指出以下环境变量的作用及其取值

JAVA_HOME、 JRE_HOME、 CLASSPATH、 HADOOP_HOME

环境变量	作用	取值
JAVA_HOME	jdk的安装路径 1.方便引用2.归一原则3.第三方软件会引用约定好的JAVA_HOME变量	/user/local/jdk1.8.0_101
JRE_HOME	设置jre的安装路径	${JAVA_HOME}/jre
CLASSPATH	指定命令搜索路径，在命令行下面执行命令如javac编译java程序时，它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序	.: ${JAVA_HOME}/lib: $ {JRE_HOME}/lib
HADOOP_HOME	Hadoop的安装路径	/home/hadoop/hadoop-2.7.2

5.Hadoop的配置文件有多个，其中包含了大量的配置参数。请指出以下参数的意义。

fs.defaultFS、hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir、dfs.replication、mapreduce.framework.name

参数	意义
fs.defaultFS	NameNode的URI
hadoop.tmp.dir	临时文件的存储目录
dfs.namenode.name.dir	指定NameNode在本地文件系统中保存namespace和持久性日志的路径
dfs.datanode.data.dir	指定DataNode在本地文件系统中保存数据块的路径
dfs.replication	指定数据块的副本个数，该值应该小于DataNode节点的数量
mapreduce.framework.name	为Hadoop YARN设置可执行框架

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航