您的位置:首页 > 编程语言

Hadoop入门系列1—— 安装,配置,编程,部署和运行

2012-03-11 16:06 519 查看
Hadoop综述:将网格计算,并行计算和虚拟化等技术融为一体的云计算技术已经成为时下存储和处理海量数据的最佳选择之一。Hadoop的开源,高性能,高容错,跨平台等特点使其成为架构分布式云计算平台的首选,从而可以充分利用集群的计算与存储能力,完成对海量数据的处理。

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS)和MapReduce为核心的Hadoop为用户提供系统底层细节透明的分布式基础架构。HDFS的高容错性,高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。



说明一下我的开发环境

操作系统:在win7下使用wubi安装了ubuntu 10.04


hadoop版本:hadoop-0.20.2

在Linux上安装与配置Hadoop需要有两个前提:1.JDK1。6或更高版本 2.SSH(安全外壳协议),推荐安装OpenSSH

Hadoop是利用java开发的,Hadoop的编译与MapReduce运行都使用JDK,Hadoop通过SSH启动slave列表中各台主机的守护进程

命令行:sudo apt-get install sun-java6-jdk 下载JDK

sudo gedit /etc/profile,打开配置文件,在文件最下面配置环境变量

#set java environment

export JAVA_HOME=/home/wjm/jdk1.6/jdk1.6.0_16

export CLASSPATH=,;$JAVA_HOME/lib.tools.jar

export PATH= $JAVA_HOME/bin:$PATH

h验证JDK是否安装成功 命令行 java -version

在配置Hadoop之前,必须先配置ssh,因为Hadoop通过ssh来管理它的节点.配置SSH免密码登录

$ sudo apt-get install ssh //一般ssh会在当前用户下创建.ssh这个隐藏文件

$ ssh-keygen -t rsa //输入三个回车,将密码设为空

$ cat /home/wjm/.ssh/id_rsa.pub >> /home/wjm/.ssh/authorized_keys //这一步是让你能够用SSH访问本地计算机

$ ssh localhost //测试ssh

安装Hadoop,Hadoop有三种运行方式:单节点方式,单机伪分布式和集群模式,本文针对的是伪分布式模式的配置。

进入hadoop-0.20.2文件夹的conf,修改配置文件hadoop-env.sh,添加export JAVA_HOME=JDK安装地址

hadoop 0.20中并不存在conf/hadoop-site.xml文件使用高版本的hadoop就要修改下面的配置:

配置
使用如下的 conf/core-site.xml:

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>



配置
使用如下的 conf/hdfs-site.xml:

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>



配置
使用如下的 conf/mapred-site.xml:

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>



至此伪分布式模式的Hadoop安装已经基本完成

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: