故障处理--kuboard无法访问，etcd磁盘空间不足

发布于：2024-12-07 ⋅ 阅读:(385) ⋅ 点赞:(0)

问题现象：

kuboard页面报错
在这里插入图片描述

排查过程：

1、查看kuboard是否正常。
2、查看kuboard容器的日志：

docker logs -f  --tail=10  kuboard
大概内容如下：
level=error msg="failed to rotate keys: etcdserver: mvcc: database space exceeded"

表示etcd磁盘空间不足，etcd默认的空间配额限制为2G，超出空间配额限制就会影响服务，需要定期清理。
3、查看etcd的启动配置entrypoint.sh，发现没有设置etcd磁盘大小，默认为2G
在这里插入图片描述

处理过程：

1、查看kuboard信息，找到kuboard-data的位置
在这里插入图片描述
2、查看etcd-data大小。发现db大于2G
3、进入容器内部，查看告警信息。alarm:nospace，也表示空间不足

4、查看etcd告警

[root@master1 etcd-data]# docker exec -it kuboard /bin/sh
# ETCDCTL_API=3 etcdctl --endpoints="http://127.0.0.1:2379" alarm list
memberID:6460912315094810421 alarm:NOSPACE

5、按照如下步骤临时处理

# 备份db
etcdctl snapshot save backup.db
# 查看当前版本
rev=$(ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 endpoint status --write-out="json" | egrep -o '"revision":[0-9]*' | egrep -o '[0-9].*')
# 压缩旧版本
ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 compact $rev
# 整理多余的空间
ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 defrag
# 取消告警信息（之前有nospace的告警）
ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 alarm disarm
# 再次查看etcd的状态（发现ERROR字段已为空）
ETCDCTL_API=3 etcdctl --endpoints="http://127.0.0.1:2379" --write-out=table endpoint status

整理多余的空间时有如下报错 在这里插入图片描述

错误原因
etcdctl 的默认命令超时为 5 秒，但碎片整理花费的时间比这更长。

解决方案
指定超时时间 --command-timeout

# 整理多余的空间
# ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 --command-timeout=30s defrag
Finished defragmenting etcd member[http://127.0.0.1:2379]
# 取消告警信息，不取消告警，ectd一样不可用
# ETCDCTL_API=3 etcdctl --endpoints=http://127.0.0.1:2379 alarm disarm
memberID:6460912315094810421 alarm:NOSPACE 
# 再次查看ETCD存储使用情况
# ETCDCTL_API=3 etcdctl --endpoints="http://127.0.0.1:2379" --write-out=table endpoint status

在这里插入图片描述

故障解决：

再次查看etcd-data文件大小
在这里插入图片描述

故障处理--kuboard无法访问，etcd磁盘空间不足

问题现象：

排查过程：

处理过程：

故障解决：

微信公众号

今日签到

热门文章

最新发布