您的位置：首页 > 大数据

大数据处理平台Hadoop之安装（基于ubuntu的Hadoop2.9.0，2.X.X同适用）

2017-11-26 22:41 531 查看

基于ubuntu的Hadoop2.9.0的安装步骤(Hadoop2.X.X同适用)

1.Linux 系统，可在虚拟机安装

2.创建Hadoop用户

若安装Linux系统时创建的用户不是hadoop，则需要创建一个名为hadoop的用户，

步骤如下：

（1）使用root进入linux系统

（2）打开linux命令行终端（没装图形化界面的忽略本步骤）

（3）使用语句创建一个名为hadoop的用户

useradd –m hadoop –s /bin/bash

（4）修改密码

（5）为hadoop用户增加管理员权限，方便以后的操作

在命令行输入visudo命令出现如下界面

sudo adduser hadoop sudo

3.使用hadoop用户登陆linux系统

4.更新apt

后面会用apt安装一些软件，如果没更新，可能有一些会出错，使用以下语句更新

sudo apt-get update

5.安装vim

后边会修改配置文件，使用vim编辑器用法和vi相同，很好用

sudo apt-get install vim      #安装vim

安装有提示按提示输入y即可

6.安装配置SSH

SSH 为 Secure Shell 的缩写，是建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序，后来又迅速扩展到其他操作平台。 SSH是由客户端和服务端的软件组成，服务端是一个守护进程(daemon)，它在后台运行并响应来自客户端的连接请求，客户端包含ssh程序以及像scp（远程拷贝）、slogin（远程登陆）、sftp（安全文件传输）等其他的应用程序

Hadoop名称节点（NameNode）需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置为名称节点可以无密码登录它们

（1）执行以下命令进行校验是否装有SSH Clint 和 SSH server（red hat和cente一般自带的都有）

rpm –qa | grep ssh

若有则出现其版本号，如下图，则不需要再安装

（2）若需要安装，那就安装…（ubuntu默认安装了SSH client 需要手动安装SSH server）

sudo apt-get install openssh-server     #安装SSH server

（3）之后通过以下命令验证

ssh localhost

按提示先输入yes，再输入hadoop用户的密码，如下图，之后就登陆上了

（4）因为每次登陆ssh是都需要输入密码比较麻烦，所以使用以下语句配置一下无密码登录

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示，都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

（5）之后再用ssh localhost登陆，无需输入密码就成功了

7.安装java环境

使用以下命令安装openjdk，但注意需要联网

sudo apt-get install default-jre default-jdk

之后通过vim编辑器写给环境变量，将javahome加入其中，命令如下：

vim ~/.bashrc

在文件最前面一行加入

export JAVA_HOME=/usr/lib/jvm/default-java

之后按键盘esc退出编辑模式，再输入命令 :wq保存并退出vim

接下来让环境变量立即生效

source ~/.bashrc    # 使变量设置生效

最后可以检验一下是否设置正确

echo $JAVA_HOME     # 检验变量值
java -version
$JAVA_HOME/bin/java -version  # 与直接执行java -version一样

Java环境安装结束

8.安装Hadoop2

（1）可以通过https://dist.apache.org/repos/dist/release/hadoop/common/

下载（在虚拟机的浏览器中打开教程点击此链接下载），一般选择下载最新的稳定版本，即下载 “stable” 下的 hadoop-2.x.y.tar.gz 这个格式的文件，这是编译好的，另一个包含 src 的则是 Hadoop 源代码，需要进行编译才可使用。

下载后一般可以直接使用，如果网络不好可能导致文件不完整，可以在下载后先进性校验：

校验方法：

下载官方网站提供的 hadoop-2.x.y.tar.gz.mds 这个文件（https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.9.0/可能会出现点击那个文件直接在网页上打开的情况（无法下载），此时只需执行下面第二条指令，出来一串16禁止字符和网页上的以一比较就行），该文件包含了检验值可用于检查 hadoop-2.x.y.tar.gz 的完整性，本文涉及的文件均通过浏览器下载，默认保存在 “下载” 目录中（若不是请自行更改 tar 命令的相应目录）。另外，版本号不对应自行修改成你下载的版本号。

cat ~/下载/hadoop-2.9.0.tar.gz.mds | grep 'MD5' # 列出md5检验值
md5sum ~/下载/hadoop-2.9.0.tar.gz | tr "a-z" "A-Z" # 计算md5值，并转化为大写，方便比较

运行之后显示如下比较两字符串，若相同则正确，不同则文件损坏，一定要重新下载！！

（2）将下载的文件解压安装

sudo tar -zxf ~/下载/hadoop-2.9.0.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.9.0/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

（3）使用以下命令检查hadoop是否可用

cd /usr/local/hadoop
./bin/hadoop version

（4）伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。

首先修改core-site.xml，使用命令

gedit ./etc/hadoop/core-site.xml

打开将其中的

<configuration>
</configuration>

修改为

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

之后修改配置文件hdfs-site.xml中相同位置的:

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>

配置文件修改说明：

Hadoop 的运行方式是由配置文件决定的（运行 Hadoop 时会读取配置文件），因此如果需要从伪分布式模式切换回非分布式模式，需要删除 core-site.xml 中的配置项。

此外，伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行（官方教程如此），不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行 format 才行。所以我们进行了设置，同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则在接下来的步骤中可能会出错。

配置完成后，执行以下语句格式化NameNode：

./bin/hdfs namenode –format

成功会看到如下提示：

接着执行以下命令开启 NameNode 和 DataNode 守护进程

./sbin/start-dfs.sh  #start-dfs.sh是个完整的可执行文件，中间没有空格

若ssh提示连接，输入yes即可

启动完成后，输入命令jps来判断是否启动成功

若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”

成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

若有如下页面，恭喜安装成功。

补充：

每次打开hadoop时总切换到hadoop目录十分麻烦，可以将开启hadoop启动程序的可执行文集那所在的目录加入到PATH变量中，以后启动直接输入程序名就可以打开了十分方便。

使用命令：

vim ~/.bashrc

打开后，在文件最前边加入以下语句。

export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin

之后保存退出，使用语句

source ~/.bashrc

使配置生效。

参考：

1.http://dblab.xmu.edu.cn/blog/install-hadoop/

2.《大数据技术原理与应用第二版》林子雨编著

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 大数据 ubuntu hadoop

相关文章推荐

新的分享

章节导航