基于 Linux 集群环境上 GPFS 的问题诊断
GPFS 是 IBM 提供的一种共享文件系统。由于 GPFS 的复杂性,使得人们在使用时会遇到各种类型的问题。对于 GPFS 的使用者,掌握基本的诊断方法,不仅可以帮您快速解决一些并不严重的问题及时恢复 GPFS 正常运行起来,同时,对于 IBM 直接提供支持的用户,本文介绍一些初步问题诊断方法可以帮助您快速提交问题报告给 IBM 服务团队,从而加速解决问题的过程。本文基于作者对 GPFS 测试和使用的经验,按照由易到难的诊断步骤和方法进行讲解,总结了一些在诊断 GPFS 问题上的经验和建议,同时结合一些实例按照文中介绍的诊断方法进行问题诊断,供读者参考。
GPFS 的概述
GPFS 是 IBM 公司提供的一个共享文件系统,它允许所有的集群节点可以并行访问整个文件系统。GPFS 允许客户共享文件,这些文件分布在不同节点的不同硬盘上,GPFS 还提供了 UNIX 文件系统接口并且支持 UNIX 文件系统的工具,用户可以在 Linux 集群中像使用普通文件系统一样使用 GPFS 文件系统,能够很好地应用在 Linux/UNIX 集群中。
在 GPFS 的长期运行中可能会出现一些问题,本文主要针对在使用 GPFS 中常见问题的一些诊断方法进行探讨。
问题诊断步骤与方法
初步检查
在装有 GPFS 文件系统的环境中出现问题时,我们在求助 IBM Service 团队前,可先自行进行些初步检查。既可以快速修复一些简单问题,也可向 Service 人员提供更详尽的问题描述信息来协助他们加快解决问题。我们一般有下面的几种常见检查方法。
1. 首先检查该问题仅仅出现在一个节点还是多个节点上并明确问题节点 :
通常判断某节点是否有问题的方法如下:
在 GPFS 集群中的某个可访问节点上运行 mmgetstate – a,该命令可以显示集群中所有节点的状态,只要不是”active”状态的节点,都不是健康的节点。如下例所示,可见节点 node2 和 node3 都出现了问题:
- 基于 Linux 集群环境上 GPFS 的问题诊断
- 基于docker搭建hadoop集群环境中遇到的一些问题
- 基于centos7.2最小化环境, cdh manager 及 cdh 集群的部署过程常见问题整理
- 基于VMware环境Linux服务器集群方案--LVS+Keepalived (2)
- Zookeeper集群的搭建(基于Linux环境下的三台服务器)
- linux环境下通过nginx实现tomcat集群实现Session会话问题
- Linux环境下,web工程基于httpd和tomcat的集群部署
- 基于Linux(中标麒麟)上QT的环境搭建——解决cannot find lGL的问题
- 基于VMware环境Linux服务器集群方案--LVS+Keepalived (1)
- Linux环境下使用JVM诊断工具排查问题
- Linux环境下安装hadoop伪分布式集群+问题总结
- MapReduce程序的3种集群提交运行模式详解---基于Windows与Linux两种开发环境
- 搭建基于Linux 具有高可用性的集群环境
- Linux环境下安装、配置Redis集群及问题解决方案文档
- 基于centos7.2最小化环境, cdh manager 及 cdh 集群的部署过程常见问题整理
- Linux 2.6.9-55.0.2.ELsmp 环境下WebLogic Server 8.1.6启动报错问题的解决
- 基于ARM-linux环境下的音频系统开发
- 向基于Linux的Oracle RAC 10g集群添加新节点
- Linux|UNIX下LAMP环境的搭建及常见问题[连载8]
- linux 环境变量重置的问题.