ceph集群osd full紧急故障恢复
2020-06-01 20:06
1411 查看
ceph集群full紧急故障恢复
1.设置 osd 禁止读写
ceph osd pause
2.通知 mon 和 osd 修改 full 阈值
ceph tell mon.* injectargs "--mon-osd-full-ratio 0.96" ceph tell osd.* injectargs "--mon-osd-full-ratio 0.96"
3.通知 pg 修改 full 阈值
ceph pg set_full_ratio 0.96 (Luminous版本之前) ceph osd set-full-ratio 0.96 (Luminous版本)
4.解除 osd 禁止读写
ceph osd unpause
5.删除相关数据或者数据均衡消除osd full
以下方法进行处理: a.openstack环境下最好是 nova 或者 glance 删除云盘及虚拟机数据,当然也可以在 ceph 层面删除 b.数据均衡ceph osd df | sort -rnk 7 按照倒序osd使用率,根据VAR值进行调整(自动按照集群osd使用率进行调整): ceph osd reweight-by-utilization VAR*100 Eg:ceph osd reweight-by-utilization 131 c.手动调整某一个osd的权重: Eg:ceph osd reweight 1 0.95
6.配置还原
ceph tell mon.* injectargs "--mon-osd-full-ratio 0.95" ceph tell osd.* injectargs "--mon-osd-full-ratio 0.95" ceph pg set_full_ratio 0.95 (Luminous版本之前) ceph osd set-full-ratio 0.95 (Luminous版本)
集群出现osd full,一般情况是集群的使用率整体较高,此时扩容或者删除数据才是正解。
Tips:
集群出现full,处于err状态,client端数据无法读写,但是如果集群进行数据均衡,还可以继续recovery。
相关文章推荐
- ceph(luminous)-Bluestore集群不可恢复,osd数据未损坏恢复
- ceph pg+down+peering 故障排查与osd误删恢复
- ceph集群osd故障修复实例演示
- ceph存储 ceph集群osd故障自我检测
- 【ceph故障排查】ceph集群添加了一个osd之后,该osd的状态始终为down
- ceph集群jewel版本部署osd激活权限报错-故障排查
- ceph集群jewel版本部署osd激活权限报错-故障排查
- ceph 集群报 too many PGs per OSD (652 > max 300)故障排查
- ceph集群单个osd超95%导致集群无法读写集群恢复过程
- Hadoop HA --- 网络原因/NN Full GC造成集群故障
- ceph常见故障-ceph activate,osd无权限
- Mongodb集群节点故障恢复场景分析
- ceph osd full 解决方法
- 集群osd full 的处理方式
- MHA 故障库恢复到集群脚本
- ceph 集群报 mds cluster is degraded 故障排查 推荐
- ceph——从osd恢复mon的方法
- ceph常见故障-MON 重新创建后无法新增 OSD
- 记一次Kafka集群的故障恢复
- CEPH -S集群报错TOO MANY PGS PER OSD