您的位置：首页 > 运维架构

hadoop学习笔记<二>----hadoop集群环境的配置

2013-04-07 22:23 633 查看

主要步骤请参考 /article/4131656.html。

里边的步骤都比较详细（也就是如何去配置hadoop环境，即 how）。

这里我着重记录下为什么要这样做（也就是why）

操作系统环境：

linux （GNU/Linux是hadoop产品开发和运行的平台。）

完全分布式模式只能布置在linux下（unix未测试，hadoop官方也未给出明确说明。 windows目前来说只能作为一个开发平台，而不能作为一个运行平台）

所需软件

1.java 1.5.x，必须安装，建议选择Sun公司发行的Java版本。（这个也不多说了，hadoop的运行环境）

2.ssh 必须安装并且保证 sshd一直运行，以便用Hadoop 脚本管理远端Hadoop守护进程。（比如启动hadoop集群环境时候，start-all.sh 会调用其他机器上的启动脚本，这时候需要权限之类的。可以简单理解为配置好了ssh，权限这些事情就交给ssh做了）

3.hadoop 这个...不用多说了

java 和 ssh 的安装这里就不再多说，网上很容易搜到。

ssh的配置文中讲的也是比较清楚的，如果想更多的了解ssh，可以参考原文作者给出的ssh连接。/article/4289794.html

配置 host和主机名

修改/etc/hosts文件。给集群的机器ip地址起一个别名，在下边的配置文件中（如原文中的四 hadoop 配置一章）更容易使用和理解。

linux下创建hadoop用户

理论上不创建也可以，但是还是很建议单独创建hadoop用户，便于管理。

配置 hadoop配置文件时候的注意事项：

在修改配置文件时候，value里边的 namenode之类的字段，是要在/etc/hosts 里边的存在的host，不然可能找不到结点。

<name>mapred.job.tracker</name>

<value>namenode:9001</value>

修改 hadoop/conf/core-site.xml 时候的注意事项：

要配置hadoop.tmp.dir，不然重启机器之后，会造成http://yourNameNode:50070/dfshealth.jsp 不能访问的问题。（log会报 INFO org.apache.hadoop.ipc.RPC: Server at localhost/127.0.0.1:9000 not available yet, Zzzzz... ）

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/hadooptmp</value>

<description>A base for other temporary directories.</description>

</property>

远程拷贝的命令：scp

eg:scp -r hadoop hadoop@datanode1:/home/hadoop/

启动hadoop集群环境后，测试结点是否正常工作的命令： jps

　jps位于jdk的bin目录下，其作用是显示当前系统的java进程情况，及其id号。

PS：用了几天才发现，这些都是很入门的配置，too young,too simple。路还很长...

==============================================================

我也是刚开始学习hadoop，学习的资料来自于《hadoop实战》和《hadoop权威指南》以及网上搜到的一些资料。

这些笔记是学习的过程中自己积累的，然后用更加浅显的话表述出来，希望也能帮助到初学者。当然里边会有很多错误，也希望大家指出，我会认真改正，谢谢

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

hadoop学习笔记&lt;二&gt;----hadoop集群环境的配置

hadoop学习笔记<二>----hadoop集群环境的配置