Hadoop2.7与Spark1.6的集群搭建
2016-08-11 09:43
232 查看
机器说明:四台ubuntu系统的电脑,选取其中一台作为master,其余三台作为slaves。
写在开头的两个坑:
1.虽然Linux支持一些特殊字符,但java里面并不支持。所以,Hadoop集群中的机器名不仅不能包含下划线,点也不可以。否则,在配置好集群之后运行jar程序的时候会报错。
2.在ubuntu系统下,配置ssh无密码登录的时候,需要修改ssd_config配置文件,具体内容见下文。
第一步,修改四台电脑的机器名,分别为Master、slaver1、slaver3、slaver4。以及通过ifconfig命令查看每台机器的固定ip,并将ip与主机名的映射添加到每一台机器的hosts文件中:
第二步,在Master机器上进入root帐号(接下来的所有配置均在root帐号下进行),在/usr目录下新建java文件夹,然后将jdk压缩包解压在java文件夹下,并在/etc/profile中配置JDK环境。
配置JDK(在etc/profile文件的最后面加上如下代码):
保存退出之后,运行下面代码让profile立即生效:
第三步,将Hadoop压缩包解压在/usr目录下,并在/usr目录下新建spark文件夹,并将scala压缩包、spark压缩包解压在spark文件夹下。
在/etc/profile中配置Hadoop、scala、spark环境变量如下:
还是在终端运行(source /etc/profile)命令,让环境变量立即生效,然后可在终端运行(hadoop --version)查看Hadoop版本。
第四步,安装ssh(无密码登录),并实现Master与其它机器之间的通信。在终端依次输入如下命令:
然后修改/etc/ssh/sshd_config文件(将如下代码覆盖掉文件之前的所有内容):
重启ssh,让配置文件生效:
查看/root/.ssh目录下是否存在文件,如果有则删除,没有则开始下一步。
在终端运行如下命令:
通过ssh登录master(第一次需要输入密码)成功之后,exit退出然后再次登录,如果不需要再输入密码,即ssh无密码登录成功,否则删除/root/.ssh文件夹下所有文件,并重新安装。
接下来,即可通过以下命令来建立与其它机器之间的通信:
第五步,配置Hadoop。在/usr/hadoop-2.7.2路径下,依次输入如下命令:
修改hadoop-2.7.2/etc/hadoop下的配置文件core-site.xml,在<configuration></configuration>中间加上如下代码:
修改hadoop-2.7.2/etc/hadoop下的配置文件hdfs-site.xml,在<configuration></configuration>中间加上如下代码:
修改hadoop-2.7.2/etc/hadoop下的配置文件mapred-site.xml,在<configuration></configuration>中间加上如下代码:
修改hadoop-2.7.2/etc/hadoop下的配置文件yarn-site.xml,在<configuration></configuration>中间加上如下代码:
然后配置/hadoop-2.7.2/etc/hadoop目录下的hadoop-env.sh、yarn-env.sh,在其中添加如下代码:
接着配置/hadoop-2.7.2/etc/hadoop目录下slaves,在里面加上你的从服务器主机名(也就是其它机器的主机名)。
以上全部配置成功后,将所有配置文件发送到各个从服务器:
最后在Master机器上执行如下命令进行namenode的格式化:
最后就可以用以下命令来启动Hadoop集群:
启动集群之后,就可以利用集群来实现最简单的单词计数:
然后在浏览器打开master:8088查看信息。
第六步,进行Spark集群配置。
到此,spark已经配置完成,然后将Master上配置好的spark、scala以及环境变量发送到每一个slave上去:
启动spark集群(可在master:8080查看):
关闭spark集群:
开启spark集群之后,可以利用spark集群实现最简单的单词计数:
如果会用python,也可以运行bin下的pyspark进入python编辑窗口,输入以下命令来实现单词计数:
写在开头的两个坑:
1.虽然Linux支持一些特殊字符,但java里面并不支持。所以,Hadoop集群中的机器名不仅不能包含下划线,点也不可以。否则,在配置好集群之后运行jar程序的时候会报错。
2.在ubuntu系统下,配置ssh无密码登录的时候,需要修改ssd_config配置文件,具体内容见下文。
第一步,修改四台电脑的机器名,分别为Master、slaver1、slaver3、slaver4。以及通过ifconfig命令查看每台机器的固定ip,并将ip与主机名的映射添加到每一台机器的hosts文件中:
第二步,在Master机器上进入root帐号(接下来的所有配置均在root帐号下进行),在/usr目录下新建java文件夹,然后将jdk压缩包解压在java文件夹下,并在/etc/profile中配置JDK环境。
在/etc/profile中配置Hadoop、scala、spark环境变量如下:
还是在终端运行(source /etc/profile)命令,让环境变量立即生效,然后可在终端运行(hadoop --version)查看Hadoop版本。
第四步,安装ssh(无密码登录),并实现Master与其它机器之间的通信。在终端依次输入如下命令:
在终端运行如下命令:
接下来,即可通过以下命令来建立与其它机器之间的通信:
以上全部配置成功后,将所有配置文件发送到各个从服务器:
第六步,进行Spark集群配置。
相关文章推荐
- CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- [置顶] CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- spark 1.5、hadoop 2.7 集群环境搭建
- CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- Centos 7.2 Hadoop2.7+Spark2.1分布式集群搭建
- spark 1.5、hadoop 2.7 集群环境搭建
- spark1.6+hadoop2.6集群HA搭建与参数解析
- 集群RedHat6.5+JDK1.8+Hadoop2.7.3+Spark2.1.1+zookeeper3.4.6+kafka2.11+flume1.6环境搭建步骤
- CentOS6.7+jdk8+hadoop2.7.1+hbase1.1.3+hive2.0.0+scala2.11.7+spark1.6集群安装!!!
- docker1.7 搭建spark1.4.0-hadoop2.6集群
- Hadoop+Spark+Zookeeper 集群搭建
- Spark 1.4集群搭建(Hadoop2.6)
- hadoop2.7完全分布式集群搭建以及任务测试
- 【Hadoop】hadoop2.7完全分布式集群搭建以及任务测试
- windows+vmware+centos7+hadoop2.7搭建伪分布式集群
- Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.5.0+Hbase-1.1.2+Hive-1.2.0集群搭建
- Hadoop 2.7版本 集群环境搭建实例
- Hadoop2.6.0 + Spark1.4.0 在Ubuntu14.10环境下的伪分布式集群的搭建(实践可用)
- hadoop2.7+Spark1.4环境搭建
- 联想ThinkPad S3-S440虚拟机安装,ubuntu安装,Hadoop(2.7.1)详解及WordCount运行,spark集群搭建