SLURM 节点状态总是drained问题
2015-09-03 09:08
429 查看
问题描述
新装的 SLURM 集群在运行了一些作业并修改一些配置项目以后,用sinfo查看信息的时候看到部分节点状态总是 drained ,但是在这个节点上并没有作业在运行,重启 slurm 服务问题依旧,如下$ sinfo PARTITION ***AIL TIMELIMIT NODES STATE NODELIST debug* up infinite 1 drain mycentos6x
并且用 “scontrol show node”查看节点的时候看到 “Reason=Low RealMemory [root@2015-07-20T21:23:33]”,好像参数修改并没有生效
$ scontrol show node NodeName=mycentos6x Arch=x86_64 CoresPerSocket=2 CPUAlloc=0 CPUErr=0 CPUTot=2 CPULoad=0.55 Features=(null) Gres=(null) NodeAddr=mycentos6x NodeHostName=mycentos6x Version=14.11 OS=Linux RealMemory=1000 AllocMem=0 Sockets=2 Boards=1 State=IDLE+DRAIN ThreadsPerCore=1 TmpDisk=0 Weight=1 BootTime=2015-07-21T09:19:03 SlurmdStartTime=2015-07-21T09:19:32 CurrentWatts=0 LowestJoules=0 ConsumedJoules=0 ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s Reason=Low RealMemory [root@2015-07-20T21:23:33]
最后查了一下,可能是前面运行了部分作业有问题,作业状态一直是“CG (completing)”,导致节点不可用。
解决办法
依次运行下面几个命令# scontrol update NodeName=<node> State=DOWN Reason=hung_completing # /etc/init.d/slurm restart # scontrol update NodeName=<node> State=RESUME
之后再查看状态
$ sinfo PARTITION ***AIL TIMELIMIT NODES STATE NODELIST debug* up infinite 1 idle mycentos6x
$ scontrol show node NodeName=mycentos6x Arch=x86_64 CoresPerSocket=2 CPUAlloc=0 CPUErr=0 CPUTot=2 CPULoad=0.17 Features=(null) Gres=(null) NodeAddr=mycentos6x NodeHostName=mycentos6x Version=14.11 OS=Linux RealMemory=1000000 AllocMem=0 Sockets=2 Boards=1 State=IDLE ThreadsPerCore=1 TmpDisk=0 Weight=1 BootTime=2015-07-21T09:19:03 SlurmdStartTime=2015-07-21T09:23:15 CurrentWatts=0 LowestJoules=0 ConsumedJoules=0 ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
转载请以链接形式标明本文地址
本文地址:/article/1415931.html
相关文章推荐
- Kafka设计解析(三)- Kafka High Availability (下)
- POJ 1422 && HDU 1151 Air Raid(最小路径覆盖-hungary)
- Kafka设计解析(二):Kafka High Availability (上)
- AI (Adobe Illustrator)详细用法(一)
- RAID-10 阵列的创建(软)
- AI(Adobe Illustrator)简单入门——骷髅
- hdu1532 Drainage Ditches(最大流)
- 精品软件 Aiseesoft PDF to Word Converter 专业的 PDF 转换器
- 精品软件 Aiseesoft PDF to Word Converter 专业的 PDF 转换器
- Git clone RPC failed
- VMware Worksataion系统关闭然后开启---系统会出现红叉
- 内核链表containerof()
- Container With Most Water —— Leetcode
- AI(Adobe Illustrator)简单入门——米老鼠
- Naive Bayes Exercise
- 2015多校联合第三场5319painter
- 邮件发送 EMailHelper
- 关于 The underlying provider failed on Open
- 论文提要“Part-based R-CNNs for Fine-grained Category Detection”
- twisted16 mail_stmp