ceph集群osd full紧急故障恢复

时间：2020-06-02 09:39:29 阅读：101 评论：0 收藏：0 [点我收藏+]

ceph集群full紧急故障恢复

1.设置 osd 禁止读写

ceph osd pause

2.通知 mon 和 osd 修改 full 阈值

ceph tell mon.* injectargs "--mon-osd-full-ratio 0.96"
ceph tell osd.* injectargs "--mon-osd-full-ratio 0.96"

3.通知 pg 修改 full 阈值

ceph pg set_full_ratio 0.96 (Luminous版本之前)
ceph osd set-full-ratio 0.96 (Luminous版本)

4.解除 osd 禁止读写

ceph osd unpause

5.删除相关数据或者数据均衡消除osd full

以下方法进行处理：
a.openstack环境下最好是 nova 或者 glance 删除云盘及虚拟机数据，当然也可以在 ceph 层面删除
b.数据均衡ceph osd df | sort -rnk 7 按照倒序osd使用率，根据VAR值进行调整（自动按照集群osd使用率进行调整）：
ceph osd reweight-by-utilization VAR*100
Eg：ceph osd reweight-by-utilization 131
c.手动调整某一个osd的权重：
Eg：ceph osd reweight 1 0.95

6.配置还原

ceph tell mon.* injectargs "--mon-osd-full-ratio 0.95"
ceph tell osd.* injectargs "--mon-osd-full-ratio 0.95"
ceph pg set_full_ratio 0.95 (Luminous版本之前)
ceph osd set-full-ratio 0.95 (Luminous版本)

集群出现osd full，一般情况是集群的使用率整体较高，此时扩容或者删除数据才是正解。

Tips：
集群出现full，处于err状态，client端数据无法读写，但是如果集群进行数据均衡，还可以继续recovery。

ceph集群osd full紧急故障恢复

标签：cli 集群一个读写 osd block stack 处理虚拟

原文地址：https://blog.51cto.com/wendashuai/2500381

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行