您的位置:首页 > 运维架构

Hadoop实战-初级部分 之 Hadoop安装部署

2013-12-14 11:10 387 查看
视频课程地址》》》 http://sishuok.com/product/481

整体课程概览

第一部分:开始云计算之旅
第二部分:初识Hadoop
第三部分:Hadoop 环境安装部署
第四部分:Hadoop Shell
基本操作介绍
第五部分:Hadoop 分布式文件系统1
第五部分:Hadoop 分布式文件系统2
第五部分:Hadoop 分布式文件系统3
第六部分:MapReduce
开发1
第六部分:MapReduce
开发2
第七部分:Hadoop集群的安装


本节课程概览

Hadoop 在windows 上伪分布式的安装过程
Hadoop 在linux 上单节点伪分布式的安装过程
集成Eclipse 开发环境
Hadoop UI 介绍
运行WordCounter 事例



第一部分:Hadoop 在windows 上伪分布式的安装过程

安装JDK

1.下载JDK
http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html 2.解压
或者直接运行.exe安装
后面根据项目的实际需要来进行调整。

安装 Cygwin

1.下载Cygwin

网址: http://www.cygwin.com/setup.exe
2.安装Cygwin

1. Net Category 下的OpenSSL

2. Base Category 下的sed

3.Editors Category 下的vim

4.Devel Category 下subversion

后面根据项目的实际需要来进行调整。



配置环境变量

1.配置J***A 环境变量
PATH 和J***A_HOME:
J***A_HOME 指向JDK安装目录;
PATH 指向JDK的bin


启动 SSHD 服务

1.安装SSHD
ssh-host-config
2. 启动SSHD
net start sshd

ssh 的安装和配置

实现ssh无密码登陆
$ssh-keygen -t rsa
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对
出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys

$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机


安装 Hadoop

1.下载Hadoop

http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop

tar xzvf hadoop-0.21.0.tar.gz

配置 Hadoop

1. 配置hadoop-env.sh
2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件

概念

HDFS:
NameNode :管理节点
DataNode :数据节点
SecondaryNamenode : 数据源信息备份整理节点

MapReduce
JobTracker :任务管理节点
Tasktracker :任务运行节点

配置文件
core-site.xml common属性配置
hdfs-site.xml HDFS属性配置
mapred-site.xml MapReduce属性配置
hadoop-env.sh hadooop 环境变量配置

修改 hadoop-env.sh

配置JDK即可
export J***A_HOME=/cygdrive/d/java/jdk1.6.0_25

core-site.xml

java代码:

查看复制到剪贴板打印

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/hadoop</value>

</property>

</configuration>

hdfs-site.xml


java代码:

查看复制到剪贴板打印

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

mapred-site.xml

java代码:

查看复制到剪贴板打印

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

启动 Hadoop

1.格式化文件系统

hadoop namenode –format

2. 启动hadoop

启动所有任务start-all.sh/stop-all.sh

启动关闭HDFS: start-dfs.sh/stop-dfs.sh

启动关闭MapReduce: start-mapred.sh/stop-mapred.sh

3. 用jps命令查看进程,确保有 namenode,dataNode,JobTracker,TaskTracker



第二部分:Hadoop 在linux 上单节点伪分布式的安装过程

安装 JDK

$chmod +x jdk-6u27-linux-i586.bin
$./jdk-6u27-linux-i586.bin
安装完后设置java 环境变量如下
命令 :/home路径下
$vi .bashrc
然后添加如下语句
export J***A_HOME=/home/test/ jdk1.6.0_27
export PATH =/bin:$J***A_HOME/bin:/usr/bin:$PATH:.
然后. .bashrc使其生效


ssh 的安装和配置

$实现ssh无密码登陆
$sudo apt-get install ssh
$ssh-keygen
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对
出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys

$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机



Hadoop 安装

1.下载Hadoop

http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop

tar xzvf hadoop-0.21.0.tar.gz

3. 添加Hadoop Bin到环境变量中



修改 hadoop-env.sh

配置JDK即可
export J***A_HOME=/cygdrive/d/java/jdk1.6.0_25



conf/core-site.xml

java代码:

查看复制到剪贴板打印

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/hadoop</value>

</property>

</configuration>

conf/hdfs-site.xml

java代码:

查看复制到剪贴板打印

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

conf/mapred-site.xml

java代码:

查看复制到剪贴板打印

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

启动 Hadoop

1.格式化文件系统

hadoop namenode –format

2. 启动hadoop

启动关闭所有服务 start-all.sh/stop-all.sh

启动关闭HDFS: start-dfs.sh/stop-dfs.sh

启动关闭MapReduce: start-mapred.sh/stop-mapred.sh

3. 用jps命令查看进程,确保有 namenode,dataNode,JobTracker,TaskTracker



第三部分:Hadoop UI 介绍

Hadoop 重要的端口

1.Job Tracker 管理界面:50030
2.HDFS 管理界面 :50070
3.HDFS通信端口:9000
4.MapReduce通信端口:9001

常用访问页面

1. HDFS 界面
http://hostname:50070 2. MapReduce 管理界面
http://hostname:50030

第四部分:运行Word Count 示例

相关步骤及命令

1.先在本地磁盘上建立两个文件file1和file2
$ echo ”Hello world Bye world" > >~/input/file1
$ echo ”hello hadoop bye hadoop” > >~/input/file2
2.在HDFS上建立一个input目录
$ hadoop fs -mkdir /tmp/input
3.将file1和file2拷贝到hdfs的input目录下
$ hadoop fs -put input/* /tmp/input

4.检查hdfs上有没有file1,file2
$ hadoop fs -ls /tmp/input
5.执行wordcount
hadoop jar hadoop-examples-1.0.0.jar wordcount /tmp/input /tmp/output
6.运行完成,查看结果
hadoop fs -cat /output/part-r-00000



第五部分:集成 Eclipse 开发环境

通过 Eclipse 编写 Hadoop 程序

1.导入hadoop-core.jar及hadoop/lib下所有Jar包
2.加入Hadoop配置文件,包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml,并修改相应参数。

本节课程小结
掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装

初次体验了Hadoop运行的WordCounter程序
了解了Hadoop UI
掌握了Hadoop 集成到 Eclipse的情况

私塾在线学习网原创内容,转载请注明出处【 http://sishuok.com/forum/blogPost/list/0/5337.html

资源附件

Hadoop安装部署.pdf

原文地址:点击打开链接
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: