您的位置:首页 > 运维架构

Ubuntu Hadoop 单机/伪分布式安装配置资料梳理及常见错误处理

2014-12-16 19:17 549 查看
以下的环境以VMware Workstation (版本9以上) 安装Ubuntu 12.*, Hadoop-2.5.1计算机操作系统为Windows 7为例。



下载安装VMware Workstation, Ubuntu

下载地址:老版本-->VMwareWorkstation v10.0.4 官方简体中文正式版

http://www.crsky.com/soft/47354.html
或者采用最新版本也是不会和其他安装产生什么问题的:VMware Workstation11.0.0.54843 ( http://rj.baidu.com/soft/detail/13808.html?ald )

教程推荐:《手把手教你用VMWare安装Ubuntu
http://wenku.baidu.com/view/a2553b17cc7931b765ce1537.html)只此一篇即可,不用再看其他。
但是这篇文章在分配磁盘空间的时候选的是立即分配步骤,最好取消这个选择,否则等待反应时间过长让人容易放弃。把下边“立即分配所有磁盘空间”取消掉。







Ubuntu 中设置源实现软件包的安装

配置Hadoop的过程,如果参考网上很多教程,大多数均是安装JDK,安装配置SSH,无密码登录SSH,安装配置Hadoop的三个文件的内容,但是刚开始安装的Ubuntu虚拟机一定要设置源才可实现接下来用到的很多软件包的正常功能。
设置源的方法:
http://jingyan.baidu.com/article/851fbc37fe45773e1f15abe0.html
源列表及使用源
http://wiki.ubuntu.org.cn/index.php?title=Qref/Source&variant=zh-cn

使用命令sudo apt-get install (加你想要安装的软件包名) 即可安装接下来如果提示说没有的软件包,比如稍后的SSH.





安装VMWare Tools 实现虚拟机和宿主机的文件拷贝

先运行命令: 
sudo apt-get install build-essential


弹出VMWare Tools所在的文件夹,右键VMWare Tools.tar.gz,copy到Home目录下。

按下面图示的命令解压安装 (参考自/article/4719014.html)

注意注销并将虚拟机重启才可在宿主机和虚拟机间实现复制粘贴,接下来宿主机下载的Hadoop和JDK压缩包即可方便copy到虚拟机里的目录里。





创建Hadoop用户

这一步建议还是要有的,虽然很多比较早的教程没有这项也可以走下去,但是有这步对以后可能会因为权限的问题而报错可以有所避免。所以在安装JDK和hadoop前先进行此步骤。
创建用户

sudo user addhadoop
修改密码为hadoop,按提示输入两次密码

sudo passwd hadoop


给hadoop用户创建目录,方可登陆

sudo mkdir  /home/hadoop
sudo chown hadoop  /home/hadoop
可考虑为hadoop用户增加管理员权限,方便部署,避免一些权限不足的问题:

sudo adduser hadoop sudo


最后注销当前用户,使用hadoop用户进行登陆。





安装JDK

可参考此博客的JDK安装过程。

/article/4719014.html

其中修改注意的地方有:

首先JDK最新官网下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

操作系统64位选第四个,32位选第二项tar.gz

下载的解压包解压并copy到/usr/lib目录下,输入命令sudo tar -zxvf jdk1.8.0.tar.gz -C /usr/lib

接下来配置环境变量,然后输入java –version验证是否安装成功。

第一个参考的资料:

/article/4719014.html

输入下面两个命令的时候注意参考博文里的引号””要去掉。

sudo update-alternatives --install /usr/bin/java java  /usr/lib/java/jdk1.8.0/bin/java 300
sudo update-alternatives --install /usr/bin/javac javac  /usr/lib/java/jdk1.8.0/bin//javac 300


第二个参考资料:

http://www.powerxing.com/install-hadoop-2-4-1-single-node/

这是一个安装openjdk的版本。





安装ssh及无密码登录

在前边设置源的地方提到过安装软件包,现在在Terminal里输入sudo apt-get installopenssh server

如果没有设置源,直接安装openssh或ssh server 会出现下面的错误提示:

hadoop@susie-virtual-machine:~$ sudoapt-get install sshopenssh server

正在读取软件包列表... 完成

正在分析软件包的依赖关系树

正在读取状态信息... 完成

现在没有可用的软件包ssh,但是它被其它的软件包引用了。

这可能意味着这个缺失的软件包可能已被废弃,

或者只能在其他发布源中找到

可是下列软件包取代了它:

openssh-clientssh-askpass-gnome

安装ssh及配置无密码登录直接参照下面这个博客这部分的内容:

/article/5648002.html





安装Hadoop-2.5.1

官网下载较稳定较新版Hadoop:http://archive.apache.org/dist/hadoop/core/

我下载的是hadoop-2.5.1.tar.gz,然后直接复制粘贴到ubuntu的Desktop上,再在/usr目录下建立hadoop文件夹,将adoop-2.5.1.tar.gz文件直接解压到到/usr/hadoop目录下。

配置系统环境变量:运行命令

sudo vim /etc/profile


export  HADOOPHOME=/usr/hadoop/hadoop-2.5.1 #注意HADOOPHOME是Hadooop-2.5.1.tar.gz解压后文件所在路径

export  PATH=$HADOOPHOME/bin:$PATH


添加完后source 命令保存更改:

source  /etc/profile


也有另一种配置环境变量的方式(bashrc文件),参考这个博客(注意hadoop的路径是在/usr/Hadoop/Hadoop-2.5.1,相关地方对应修改):

/article/5648002.html





单机模式的hadoop配置及word count测试

在启动Hadoop前要先格式化,格式化成功的提示如图:

编辑/usr/hadoop/Hadoop-2.5.1/etc/hadoop/hadoop-env.sh然后进行word count的测试:

/article/5648002.html





伪分布模式配置

---配置core-site.xml,yarn-site.xml, mapred-site.xml, hdfs-site.xml

/article/5648003.html

按照此博文介绍继续格式化hdfs和启动hadoop。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: