您的位置：首页 > 大数据 > Hadoop

hadoop 安装配置

2015-08-03 19:35 585 查看

1、安装java 选择适合自己的jdk 我选择的是jdk7，下载地址如下

http://www.oracle.com/technetwork/java/javase/archive-139210.htm l

解压

配置环境变量 vim /etc/profile
---------------------
JAVA_HOME=/usr/java/jdk1.7.0_45
JRE_HOME=/usr/java/jdk1.7.0_45/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME JRE_HOME PATH CLASSPATH
---------------------
source /etc/profile

================jdk 在线安装====
1.查找java相关得列表

[qyf@localhost ~]$ yum -y list java*

2.使用root用户安装
安装时提醒必须使用root用户，sudo都不行。[qyf@localhost ~]$ yum -y install java-1.7.0-openjdk*3.确认是否安装成功
[qyf@localhost ~]$ java -version
4.默认情况下jdk安装得路径/usr/lib/jvm

==========================
2、安装scala
scala下载地址：http://www.scala-lang.org/download/2.10.3.html
解压到/root/software
配置环境变量
vim /etc/profile
添加
SCALA_HOME=/root/software/scala-2.10.4
PATH=$SCALA_HOME/bin:$PATH

source /etc/profile
3、安装spark可以参考下面的
http://blog.csdn.net/supingemail/article/details/46713851

http://my.oschina.net/hanzhankang/blog/204100
3、安装hadoop
转载来自：http://blog.csdn.net/stark_summer/article/details/43484545

hadoop下载网址：
wget http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

1）修改下主机名为mastersudo vim /etc/sysconfig/network

修改结果后：

重启电脑：Linux centos重启命令：　　1、reboot

　　2、shutdown -r now 立刻重启(root用户使用)

　　3、shutdown -r 10 过10分钟自动重启(root用户使用)

　　4、shutdown -r 20:35 在时间为20:35时候重启(root用户使用)

查看结果：

修改主机名成功2)修改hosts中的主机名：

修改后：

3)配置SSH

进入.ssh目录并生成authorized_keys文件：

授权.ssh/文件夹权限为700，authorized_keys文件权限为600(or 644)：

ssh验证：

4)hadoop安装：去官网下载hadoop最新安装包：http://apache.fayea.com/hadoop/common/hadoop-2.6.0/下载并解压后：hadoop-2.6.0.tar.gz 放在/root/software文件中解压tar zvxf hadoop-2.6.0.tar.gz配置系统环境vim /etc/profile----------------------------
export HADOOP_INSTALL=/root/sherry/hadoop-2.6.0
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
-------------------------------source /etc/profile

在hadoop目录下创建文件夹：

接下来开始修改hadoop的配置文件，首先进入hadoop2.6配置文件夹：

第一步修改配置文件hadoop-env.sh，加入"JAVA-HOME",如下所示：

指定我们安装的“JAVA_HOME”：

第二步修改配置文件"yarn-env.sh"，加入"JAVA_HOME",如下所示：

指定我们安装的“JAVA_HOME”：

第三步修改配置文件“mapred-env.sh”，加入“JAVA_HOME”，如下所示：

指定我们安装的“JAVA_HOME”：

第四步修改配置文件slaves，如下所示：

设置从节点为master，因为我们是伪分布式，如下所示：

第五步修改配置文件core-site.xml，如下所示：

修改core-site.xml文件后：

目前来说，core-site.xml文件的最小化配置，core-site.xml各项配置可参考：http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/core-default.xml
我自己的配置如下：--------------------<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://10.118.46.22:9000</value>
</property>

<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>file:/root/sherry/tmp</value>
<description>Abase for other temporary directories.</description>
</property>

<property>
<name>hadoop.proxyuser.hduser.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hduser.groups</name>
<value>*</value>
</property>

<property>
<name>ha.zookeeper.quorm</name>
<value>slave4:2181</value>
</property>
</configuration>

----------------------第六步修改配置文件 hdfs-site.xml，如下所示：

hdfs-site.xml文件修改后：

上述是hdfs-site.xml文件的最小化配置，hdfs-site.xml各项配置可参考：http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
我自己的配置---------------------------<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>localhost:9001</value>
</property>

<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hdfs/namenode</value>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hdfs/datanode</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<property>
<name>dfs.webhdfs.enable</name>
<value>true</value>
</property>
</configuration>

---------------------------

第七步修改配置文件 mapred-site.xml，如下所示：copy mapred-site.xml.template命名为mapred-site.xml，打开mapred-site.xml，如下所示：

mapred-site.xml 修改后：

上述是mapred-site.xml最小化配置，mapred-site.xml各项配置可参考：http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml我自己的配置-----------------<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

</configuration>
------------------第八步配置文件yarn-site.xml，如下所示：

yarn-site.xml修改后：

上述内容是yarn-site.xml的最小化配置，yarn-site文件配置的各项内容可参考：http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml也可以增加spark_shuffle,配置如下
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle,spark_shuffle</value>
</property>

<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
<value>org.apache.spark.network.yarn.YarnShuffleService</value>
</property>
PS: 当提交hadoop MR 就启用,mapreduce_shuffle,当提交spark作业就使用spark_shuffle,但个人感觉spark_shuffle 效率一般,shuffle是很大瓶颈,还有如果你使用spark_shuffle 你需要把spark-yarn_2.10-1.4.1.jar 这个jar copy 到HADOOP_HOME/share/hadoop/lib下 ,否则 hadoop 运行报错 class not find exeception

我自己的配置------------------------------------<configuration>


<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

-----------------------------------
5、启动并验证hadoop伪分布式新版启动：进入hadoop/sbin start-all.sh关闭：stop-all.sh
验证启动是否成功jps

第一步：格式化hdfs文件系统：

第二步：进入sbin中启动hdfs，执行如下命令：

此刻我们发现在master上启动了NameNode、DataNode、SecondaryNameNode此刻通过web控制台查看hdfs，http://master:50070/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： jdk Scala hadoop

相关文章推荐

新的分享

章节导航