您的位置:首页 > 运维架构

Cygwin下Hadoop的安装与配置详解

2011-07-05 19:53 351 查看

Hadoop 支持 Linux 及 Windows 操作系统, 但其官方网站声明 Hadoop 的分布式操作在 Windows 上未做严格测试,建议只把 Windows 作为 Hadoop 的开发平台。在 Windows 环境上的安装步骤如下( Linux 平台类似,且更简单一些):

一、安装Cygwin

下载Cygwin,运行step.exe,选择从网络安装,选择安装路径和临时下载文件的存放路径,这里我将安装路径设为 F:/ Cygwin ->Next ,在下面的目录中搜索ssh,注意这里ssh一定要选中,在后面的分布式配置中虚拟主机之间是通过ssh连接的。安装完成之后,把
Cgywin 的安装目录如 F:/Cygwin/bin 加到系统环境变量 PATH 中,这是因为运行 Hadoop 要执行一些 linux 环境下的脚本和命令。



二、安装Jdk

jdk的版本要求是1.5以上版本,最好是1.6,因为最新版的hadoop默认的是1.6的配置,在环境变量中配置JAVA_HOME ,我的jdk位置是D:/Program Files/Java/jdk1.6.0_10

三、Hadoop

到 Hadoop 官方网站 http://hadoop.apache.org下载Hadoop
Core,目前 最新的版本是 0.21.0.每个版本之间都会有区别,我选择的是0.20.2版本, 将下载后的安装包解压到一个目录,本文假定解压到 F:/hadoop-0.20.2。

接下来开始配置,修改 conf/hadoop-env.sh 文件,在其中设置 JAVA_HOME
环境变量: export JAVA_HOME="D:/Program Files/Java/jdk1.6.0_10” (因为路径中 Program Files 中间有空格,一定要用双引号将路径引起来),注意如果这样配置在接下来仍会出现Java home is not set的错误的话,那么把export前面的#号去掉,最好直接去掉#以免麻烦。

至此,一切就绪,可以运行 Hadoop 了。以下的运行过程,需要启动 cygwin, 进入模拟 Linux 环境。在下载的 Hadoop Core 包中,带有几个示例程序并且已经打包成了 hadoop-0.20.2-examples.jar。其中有一个 WordCount 程序,功能是统计一批文本文件中各个单词出现的次数,我们先来看看怎么运行这个程序。Hadoop
共有三种运行模式: 单机(非分布式)模式,伪分布式运行模式,分布式运行模式,其中前两种运行模式体现不了 Hadoop 分布式计算的优势,并没有什么实际意义,但对程序的测试及调试很有帮助,我们先从这两种模式入手,了解基于 Hadoop 的分布式并行程序是如何编写和运行的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: