hadoop学习笔记<二>----hadoop集群环境的配置
2013-04-07 22:23
633 查看
主要步骤请参考 /article/4131656.html。
里边的步骤都比较详细(也就是如何去配置hadoop环境 ,即 how)。
这里我着重记录下为什么要这样做(也就是why)
操作系统环境:
linux (GNU/Linux是hadoop产品开发和运行的平台。)
完全分布式模式只能布置在linux下(unix未测试,hadoop官方也未给出明确说明。 windows目前来说只能作为一个开发平台,而不能作为一个运行平台)
所需软件
1.java 1.5.x,必须安装,建议选择Sun公司发行的Java版本。(这个也不多说了,hadoop的运行环境)
2.ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。(比如 启动hadoop集群环境时候,start-all.sh 会调用其他机器上的启动脚本,这时候需要权限之类的。 可以简单理解为配置好了ssh,权限这些事情就交给ssh做了)
3.hadoop 这个...不用多说了
java 和 ssh 的安装这里就不再多说,网上很容易搜到。
ssh的配置 文中讲的也是比较清楚的,如果想更多的了解ssh,可以参考原文作者给出的ssh连接。/article/4289794.html
配置 host和主机名
修改/etc/hosts文件。给集群的机器ip地址起一个别名,在下边的配置文件中(如原文中的 四 hadoop 配置 一章)更容易使用和理解。
linux下创建hadoop用户
理论上不创建也可以,但是还是很建议单独创建hadoop用户,便于管理。
配置 hadoop配置文件时候的注意事项:
在修改配置文件时候,value里边的 namenode之类的字段,是要在/etc/hosts 里边的存在的host,不然可能找不到结点。
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
修改 hadoop/conf/core-site.xml 时候的注意事项:
要配置hadoop.tmp.dir,不然重启机器之后,会造成http://yourNameNode:50070/dfshealth.jsp 不能访问的问题。(log会报 INFO org.apache.hadoop.ipc.RPC: Server at localhost/127.0.0.1:9000 not available yet, Zzzzz... )
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadooptmp</value>
<description>A base for other temporary directories.</description>
</property>
远程拷贝的命令:scp
eg:scp -r hadoop hadoop@datanode1:/home/hadoop/
启动hadoop集群环境后,测试结点是否正常工作的命令: jps
jps位于jdk的bin目录下,其作用是显示当前系统的java进程情况,及其id号。
PS:用了几天才发现,这些都是很入门的配置,too young,too simple。路还很长...
==============================================================
我也是刚开始学习hadoop,学习的资料来自于 《hadoop实战》和《hadoop权威指南》 以及网上搜到的一些资料。
这些笔记是学习的过程中自己积累的,然后用更加浅显的话表述出来,希望也能帮助到初学者。当然里边会有很多错误,也希望大家指出,我会认真改正,谢谢
里边的步骤都比较详细(也就是如何去配置hadoop环境 ,即 how)。
这里我着重记录下为什么要这样做(也就是why)
操作系统环境:
linux (GNU/Linux是hadoop产品开发和运行的平台。)
完全分布式模式只能布置在linux下(unix未测试,hadoop官方也未给出明确说明。 windows目前来说只能作为一个开发平台,而不能作为一个运行平台)
所需软件
1.java 1.5.x,必须安装,建议选择Sun公司发行的Java版本。(这个也不多说了,hadoop的运行环境)
2.ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。(比如 启动hadoop集群环境时候,start-all.sh 会调用其他机器上的启动脚本,这时候需要权限之类的。 可以简单理解为配置好了ssh,权限这些事情就交给ssh做了)
3.hadoop 这个...不用多说了
java 和 ssh 的安装这里就不再多说,网上很容易搜到。
ssh的配置 文中讲的也是比较清楚的,如果想更多的了解ssh,可以参考原文作者给出的ssh连接。/article/4289794.html
配置 host和主机名
修改/etc/hosts文件。给集群的机器ip地址起一个别名,在下边的配置文件中(如原文中的 四 hadoop 配置 一章)更容易使用和理解。
linux下创建hadoop用户
理论上不创建也可以,但是还是很建议单独创建hadoop用户,便于管理。
配置 hadoop配置文件时候的注意事项:
在修改配置文件时候,value里边的 namenode之类的字段,是要在/etc/hosts 里边的存在的host,不然可能找不到结点。
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
修改 hadoop/conf/core-site.xml 时候的注意事项:
要配置hadoop.tmp.dir,不然重启机器之后,会造成http://yourNameNode:50070/dfshealth.jsp 不能访问的问题。(log会报 INFO org.apache.hadoop.ipc.RPC: Server at localhost/127.0.0.1:9000 not available yet, Zzzzz... )
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadooptmp</value>
<description>A base for other temporary directories.</description>
</property>
远程拷贝的命令:scp
eg:scp -r hadoop hadoop@datanode1:/home/hadoop/
启动hadoop集群环境后,测试结点是否正常工作的命令: jps
jps位于jdk的bin目录下,其作用是显示当前系统的java进程情况,及其id号。
PS:用了几天才发现,这些都是很入门的配置,too young,too simple。路还很长...
==============================================================
我也是刚开始学习hadoop,学习的资料来自于 《hadoop实战》和《hadoop权威指南》 以及网上搜到的一些资料。
这些笔记是学习的过程中自己积累的,然后用更加浅显的话表述出来,希望也能帮助到初学者。当然里边会有很多错误,也希望大家指出,我会认真改正,谢谢
相关文章推荐
- Hadoop学习笔记之<搭建环境>
- Hadoop 学习笔记:java.lang.NoSuchMethodException: DataJoin$TaggedWritable.<init>()
- Generics Types 泛型学习笔记<二>
- hadoop学习笔记之<用eclipse开发>
- hadoop学习笔记<一>----hadoop简介
- [原]java专业程序代写(qq:928900200),学习笔记之基础入门<Hibernate_配置详解>(三十六)
- PostgreSQL学习笔记6之函数和操作符<二>
- Windows学习笔记13——键盘相关<二>
- linux学习笔记:<二>vi常用命令
- hadoop学习笔记之-生产环境Hadoop大集群配置安装
- hadoop学习笔记<四>----map-reduce工作原理
- hadoop学习笔记<三>----HDFS
- Windows学习笔记8——文字输出<二>
- hadoop学习笔记之<Call From localhost/127.0.0.1 to localhost:9000 failed...>
- Hadoop学习<二>--HDFS文件系统操作方式
- Hadoop学习<一>--hadoop安装和环境变量设置
- hadoop学习笔记之<hadoop fs和hdfs dfs命令>
- hadoop学习笔记之-生产环境Hadoop大集群配置安装
- cassandra 学习之旅<二> 集群安装
- Windows学习笔记4——窗口与消息<二>