大数据作业
前期准备
准备好四台安装了centos系统的虚拟机,并在其中一台完成伪分布式的安装
高可用安装
HA安装方案
分发jdk到node02,ndoe03,node04上
并在Xshell的全部会话栏里一起ll,看jdk是否发送成功。
给node02,node03,node04分别安装jdk
分别在node02,node03,node04上执行rpm安装命令。
在node01上cd /etc,在此目录下把profile文件分发到node02、03、04上
利用Xshell全部会话栏,source /etc/profile
利用Xshell全部会话栏,jps,看02、03、04这三台机子的jdk是否装好。
同步所有服务器的时间
装机之前的配置文件检查
1.cat /etc/sysconfig/network
查看HOSTNAME是否正确
2.cat /etc/hosts
查看IP映射是否正确,若不正确,可以改文件,也可以把node01上的用scp分发过去.。
3.cat /etc/sysconfig/selinux
检查SELINUX的值是否是disabled
4.service iptables status
查看防火墙是否关闭
NN与其他三台机子的免秘钥设置
1.在家目录下 ll –a看下有无.ssh文件,如果没有就ssh loalhost一下,完成后记得exit退出。
2.cd /.ssh,并ll查看一下
3.把node01的公钥发给其他三台虚拟机
4.将node02的.ssh目录下的node01.pub追加到authorized_keys
5.同理给其他节点发送公钥并在各个节点上把node01的公钥追加上
两个NN间互相免密钥
在node02上:
ssh localhost验证一下
分发到node01上:—
在node01的.ssh目录下
在node02上ssh node01验证一下可否免密钥登录
修改namenode的一些配置信息
vi hdfs-site.xml——
vi core-site.xml
安装hadoop
cd /opt,将其下的gf目录分发到node02、03、04—将hdfs-site.xml和core-site.xml分发到node02、03、04安装zookeeper
解压安装zookeeper—
修改zookeeper的配置文件
给zoo_sample.cfg改名
vi zoo.cfg
改dataDir=/var/ldy/zk
并在末尾追加———
其中2888主从通信端口,3888是当主挂断后进行选举机制的端口
把zookeeper分发到其他节点
—并用ll /opt/gf检查下看分发成功没
给每台机子创建刚配置文件里的路径—
在/etc/profile里面配置
然后在把/etc/profile分发到其他node03、node04
然后在node02,node03,node04中source /etc/profie
验证source这句是否完成,输入zkCli.s,按Tab可以把名字补全zkCli.sh
启动zookeeper
全部会话:zkServer.sh start
接着用zkServer.sh status查看每个zookeeper节点的状态
如果启动不起来,请把/etc/profile里的JAVA_HOME改成绝对路径。
启动journalnode
在01、02、03三台机子上分别把journalnode启动起来
hadoop-daemon.sh start journalnode
用jps检查下进程启起来了没
格式化任一namenode
随意挑一台namenode上执行hdfs namenode –format
另一台namenode不用执行,否则clusterID变了,找不到集群了。
然后,启动刚刚格式化的那太namenode:
给另一namenode同步数据
在另外一台namenode上执行
在node04上执行zkCli.sh打开zookeeper客户端看hadoop-ha是否打开
启动hdfs集群—
为MapReduce
把mapred-site.xml.template留个备份,并且改下名字—在mapred-site.xml里添加如下property在yarn-site.xml里添加如下property
由于node03和node04都是resourcemanager,所以它俩应该相互免密钥
node03上免密钥登录node04:
在node03的.ssh目录下生成密钥——
并追加到自己authorized_keys
用ssh localhost验证看是否需要密码,别忘了exit
将node03 的公钥分发到node04—
在node04的.ssh目录下,追加node03.pub在node03上ssh node04,看是否免密钥。
node04上免密钥登录node03同理。
启动所有进程,并检查是否有遗漏
运行wordcount测试————
在hdfs里建立输入目录和输出目录
将要统计数据的文件上传到输入目录并查看
运行wordcount(注意:此时的/data/out必须是空目录)在windows下配置hadoop的环境
更改环境变量,增加HADOOP_HOME—
并在path中添加HADOOP_HOME中添加路径
然后再新建一个变量HADOOP_USER_NAME
安装eclipse-mars,并调出Map/Reduce Locations
新建一个hadoop localtion(Host:哪个namenode是active,就填哪个;port:8020)
在eclipse里导入自己建一个包库,并把jar包导入刚建的包库利用xftp把hdfs-site.xml,core-site.xml等几个xml放到project的src目录——————
版权声明:本文为CSDN博主「Zcyjzwd」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/readerQAQ/java/article/details/106805000——————
版权声明:本文为CSDN博主「Zcyjzwd」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/readerQAQ/java/article/details/106805000
- 大数据技术之_16_Scala学习_10_使用递归的方式去思考,去编程+作业07/08/09
- 领英大数据平台--超过1万节点,每天15万个作业,智能连接4.7亿职场用户 [session]
- Palantir如何通过技术协助客户作业的,也是我看到过的讲大数据故事最精彩的一篇。
- 大数据实验室作业总结
- 基于大数据开发套件定时调度带资源文件的MapReduce作业
- 大数据第一次作业
- 大数据第二次作业
- 大数据作业
- 《大数据挖掘、分析与应用》列表和元组(第四周作业)
- 大数据开发之Hadoop篇----提交作业到yarn上的流程
- 课程作业——大数据概述
- 课程作业——大数据概述
- 基于大数据开发套件定时调度带资源文件的MapReduce作业
- 大数据第三次作业
- 大数据第一次作业
- 大数据第二次作业
- 大数据训练作业(4)
- 大数据第三次作业
- Scrapy作业——爬取大数据教育机构资源
- 作业第三步----Top10的最重要页面