Hadoop运维手记
2015-09-26 17:02
323 查看
1.处理hadoop的namenode宕机
处理措施:进入hadoop的bin目录,重启namenode服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start namenode
2.处理hadoop的jobtacker宕机
处理措施:进入hadoop的bin目录,重启jobtacker服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start jobtracker
3. 处理hadoop的datanode宕机
处理措施:进入hadoop的bin目录,重启datanode服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start datanode
4. 处理hadoop的tasktracker宕机
处理措施:进入hadoop的bin目录,重启tasktacker服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start tasktracker
5. 启动hadoop集群
处理措施:进入hadoop的bin目录,执行start-all.sh脚本
操作命令:cd path/to/hadoop/bin ./start-all.sh
注意事项:
namenode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1- dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(缺省值0.999f)表示hdfs启动的时候,如果datanode上报的block个数达到了 元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则hdfs永远是处于safemode。
有两个方法离开这种安全模式
(1)修改dfs.safemode.threshold.pct为一个比较小的值,缺省是0.999。
(2)hadoop dfsadmin -safemode leave命令强制离开
用户可以通过hadoop dfsadmin -safemode $value来操作安全模式,参数$value的说明如下:
enter – 进入安全模式
leave – 强制namenode离开安全模式
get – 返回安全模式是否开启的信息
wait – 等待,一直到安全模式结束。
6. 关闭hadoop集群
处理措施:进入hadoop的bin目录,执行stop-all.sh脚本
操作命令:cd path/to/hadoop/bin ./ stop-all.sh
7. 从hadoop移除机器
处理措施:把需要移除的机器增加到exclueds文件中,强制刷新datanode列表,等待decommission 状态正常后,即可停机下架,如有必要在namenode执行balancer操作。
操作命令:在master的conf/hdfs-site.xml中加入
在$hadoop_home下创建exclueds文件
文件内容增加你想删除的节点的机器名,一行一个
/bin/hadoop dfsadmin -refreshnodes命令刷新datanode例表
/bin/hadoop dfsadmin -report查看结果
在decommission status : decommission in progress变为 decommission status : decommission normal前mapreduce会异常增加节点
8. 向hadoop添加机器
处理措施:把新机器的增加到conf/slaves文件中,重启datanode和jobtracker进程,当新添加的机器向namenode发送心跳信息后,namenode会自动感知新加入的机器,如果有必要可以做balancer操作。
操作命令:
1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过)
2.在新机器上进入hadoop安装目录
$bin/hadoop-daemon.sh start datanode
$bin/hadoop-daemon.sh start tasktracker
3.在namenode上
$bin/hadoop balancer
9. 杀死正在运行的job
操作命令:bin/hadoop job –kill {job-id}
处理措施:进入hadoop的bin目录,重启namenode服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start namenode
2.处理hadoop的jobtacker宕机
处理措施:进入hadoop的bin目录,重启jobtacker服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start jobtracker
3. 处理hadoop的datanode宕机
处理措施:进入hadoop的bin目录,重启datanode服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start datanode
4. 处理hadoop的tasktracker宕机
处理措施:进入hadoop的bin目录,重启tasktacker服务
操作命令:cd path/to/hadoop/bin ./hadoop-daemon.sh start tasktracker
5. 启动hadoop集群
处理措施:进入hadoop的bin目录,执行start-all.sh脚本
操作命令:cd path/to/hadoop/bin ./start-all.sh
注意事项:
namenode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1- dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(缺省值0.999f)表示hdfs启动的时候,如果datanode上报的block个数达到了 元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则hdfs永远是处于safemode。
有两个方法离开这种安全模式
(1)修改dfs.safemode.threshold.pct为一个比较小的值,缺省是0.999。
(2)hadoop dfsadmin -safemode leave命令强制离开
用户可以通过hadoop dfsadmin -safemode $value来操作安全模式,参数$value的说明如下:
enter – 进入安全模式
leave – 强制namenode离开安全模式
get – 返回安全模式是否开启的信息
wait – 等待,一直到安全模式结束。
6. 关闭hadoop集群
处理措施:进入hadoop的bin目录,执行stop-all.sh脚本
操作命令:cd path/to/hadoop/bin ./ stop-all.sh
7. 从hadoop移除机器
处理措施:把需要移除的机器增加到exclueds文件中,强制刷新datanode列表,等待decommission 状态正常后,即可停机下架,如有必要在namenode执行balancer操作。
操作命令:在master的conf/hdfs-site.xml中加入
<property> <name>dfs.hosts.exclude</name> <value>excludes</value> </property>
在$hadoop_home下创建exclueds文件
文件内容增加你想删除的节点的机器名,一行一个
/bin/hadoop dfsadmin -refreshnodes命令刷新datanode例表
/bin/hadoop dfsadmin -report查看结果
datanodes available: 1 (1 total, 0 dead) name: 192.168.200.118:50010 decommission status : decommission in progress configured capacity: 211370565632 (196.85 gb) dfs used: 11459694592 (10.67 gb) non dfs used: 187135799296 (174.28 gb) dfs remaining: 12775071744(11.9 gb) dfs used%: 5.42% dfs remaining%: 6.04% last contact: wed feb 22 23:51:48 pst 2015
在decommission status : decommission in progress变为 decommission status : decommission normal前mapreduce会异常增加节点
8. 向hadoop添加机器
处理措施:把新机器的增加到conf/slaves文件中,重启datanode和jobtracker进程,当新添加的机器向namenode发送心跳信息后,namenode会自动感知新加入的机器,如果有必要可以做balancer操作。
操作命令:
1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过)
2.在新机器上进入hadoop安装目录
$bin/hadoop-daemon.sh start datanode
$bin/hadoop-daemon.sh start tasktracker
3.在namenode上
$bin/hadoop balancer
9. 杀死正在运行的job
操作命令:bin/hadoop job –kill {job-id}
相关文章推荐
- LINUX JDK Tomcat 安装
- Linux下LDAP统一认证解决方案
- linux 服务简介
- linux JDK 安装无法建立连接的问题解决 wget方法后面再说
- centos7下面搭建lnmp环境
- Maven pom.xml加载不同properties配置
- 1.4 CentOS7 配置AMP环境之安装准备
- 单服务器发布多网站的问题
- linux上搭建完整go语言vim开发环境
- apache集成php5.6方法分享
- 二:shell之bash变量
- centos LAMP搭建
- linux中nginx
- 1.3 CentOS7设置FTP
- Linux apt-get
- Linux(9.21-9.27)学习笔记
- Linux(9.21-9.27)学习笔记
- 磁盘iops 测试 fio 及报错解释
- opengl 画正N边形
- GNU Linux mount挂载的常用三种方法