您的位置：首页 > 运维架构

Hadoop Spark 集群简便安装总结

2015-07-05 02:03 441 查看

本人实际安装经验，目的是为以后快速安装，仅供自己参考。

一、Hadoop

1、操作系统一如既往：①setup关掉防火墙、②vi /etc/sysconfig/selinux，改SELINUX=disabled 。(3)安装时自定义不要JAVA。④系统安装后，直接创建用户hadoop，密码同用户名。

2、ssh。①在master上以hadoop用户执行ssh-keygen。②ssh-copy-id -i ~/.ssh/id_rsa.pub 主机2。③同2，传到其他主机。这样，只有master能控制其他主机。

3、上传我制作的包含：hadoop,spark,scala,jdk，以及hosts文件、profile文件的压缩文件，用命令scp sparkok.tar.gz 主机2:/home/hadoop ，并 tar -zxvf到当前文件夹。

4、设置/etc/profile。这里一下在文件最后设置许多变量，方便等下拷贝到所有的机器，之后要source /etc/profile使之生效。

export JAVA_HOME=/opt/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/hadoop/hadoop2.7
#export HBASE_HOME=/home/hadoop/hbase
#export ZOOKEEPER_HOME=/home/hadoop/zookeeper
export SCALA_HOME=/home/hadoop/scala
export SPARK_HOME=/home/hadoop/spark
#export KAFKA_HOME=/home/hadoop/kafka
#export HIVE_HOME=/home/hadoop/hive
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

5、修改hadoop参数文件。在其中一台用户目录下解压hadoop，结果可如：hadoop2.7 。hadoop会默认许多参数，如果是单机测试，甚至都不用修改参数。但我们是集群，需要修改几个必需的。默认配置可以查找 **default.xml，找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key（网上也有默认：http://hadoop.apache.org/docs）。下面是尽量少配。

（1）core-site.xml ，2个配置

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
<description>配了这个，以后hdfs-site.xml就不用配data和name文件夹了，连建立都不用</description>
</property>

<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
<description>这个也应该是必须的，而且必须写主机名，连IP都不行</description>
</property>
</configuration>

（2）hdfs-site.xml ，如果服务器大于3台就不用了

<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
<description>复制几份？默认3，如果大于3台服务器，就不用了 </description>
</property>
</configuration>

（3）mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>The runtime framework for executing MapReduce jobs.
Can be one of local, classic or yarn.默认是local，适合单机
</description>
</property>
</configuration>

（4）yarn-site.xml

<configuration>
<property>
<description>既然选择了yarn，就得填,这个就是以前的master配置了</description>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>

（5）slaves。每行一个slave主机名。

（6）hadoop-env.sh 和 yarn-env.sh 。其内容虽然看着有JAVA_HOME的配置，但好像不生效，还得再写一遍JAVA_HOME配置。

以上虽然看起来很多，但实际就是告诉他：数据的存放目录(core)，MR要用yarn，yarn的master是谁，如此而已。把以上文件存起来，以后稍加修改后，就可重复利用了。

5、启动与测试

（1）格式化HDFS：

$HADOOP_HOME/bin/hdfs  namenode  -format

（2）启动集群：

$HADOOP_HOME/sbin/start-all.sh

（3）在master和slaver的sbin下执行jps。

（4）hdfs dfs -mkdir /xxx

hdfs dfs -ls /

6、UI访问

（1）状态：netstat -nap | grep 54310

（2）http://master-ip:8088

NameNode：http://master-ip:50070

JobTracker：http://master-ip:50030

所以，安装简单来说就是：ssh、配JAVA_HOME / HADOOP_HOME等profile参数、配数据存放目录 / MR要用yarn 及 master是谁 。

我还将上面涉及到的文件打包成文件，可下载重复使用。

以上是Hadoop的配置。

二、SPARK 安装

1、下载scala，这个是spark的安装前提条件，解压到每台机器，可以和上面的hadoop一个用户和目录。至于profile，上面已经一次性写完了，所以这次都不用写了，好方便吧^_^

2、spark下载并解压，profile也不用重写了。需要改conf文件夹下的配置：

（1）slaves 文件。每行一个IP地址或主机名。

（2）执行 mv spark-env.sh.template spark-env.sh ：JAVA_HOME仍然必须填。

export JAVA_HOME=/opt/jdk18
export SCALA_HOME=/home/spark/opt/scala-2.11.4 #这行我没写也行
export SPARK_MASTER_IP=192.168.128.131
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

3、然后将此文件复制到各个服务器上就行了。

4、启动和测试：

（1）和hadoop一样： /sbin/start-all.sh

（2）master:8080

SPARK安装就是：配scala，SPARK_MASTER_IP ，HADOOP_CONF_DIR ，slaves 。就是这么简单，当然无论哪个，都不要忘了写JAVA_HOME到配置文件。

河南省公安厅：党玉龙

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航