高可用集群,其中一台管理节点rbd-repo一直重启

请完善如下信息,方便我们协助排查问题:

仅可能详细点
Rainbond版本:5.1.9
操作系统:centos7-1708
环境:ovirt
节点配置: 三个管理节点192.168.1.50,56,57 两个计算节点 53,54
是否重新执行安装:在安装56,57两个管理节点时,提示pip版本过低,升级pip后,grctl node delete id 删除了两个管理节点并重新安装

排错过程中相关截图:




以上是管理节点三(192.168.1.56)部分截图
排错过程中发现控制台也有报错,截图如下

查看管理节点一部分日志,有如下报错

抄送: @barnett

另外异常的管理节点CPU占用也过高

  • rbd-repo组件本质是jforg 出品的 atrifactory-oss,如果你对它有足够的了解,可以检测日志来排错。一个比较武断的解决方式,是:
  1. 关闭 node rbd-repo 服务
  2. 删除rbd-repo容器挂载的宿主机目录,记录目录的属主属组信息
  3. 重建rbd-repo组件挂载的宿主机目录,并恢复目录的属主属组信息
  4. 启动node rbd-repo 服务
  • manage03节点cpu过高的原因基本可以确定和rbd-repo有关,恢复rbd-repo自动解决
  • 控制台的报错,兄台我觉得你是把文档里的命令直接执行了。

<VIP_OF_MANAGE> 这个,要替换成管理节点使用的vip地址

感谢,已经解决

rbd-repo问题具体解决办法:
参考了下图


但是实际解决过程中,依然是会有服务一直重启的情况,建议遇到相同情况的老哥多重启几次虚拟机,多等等,有时候就是这么玄学…

控制台问题确实是复制文档改的时候有一个参数没有改:innocent:

最后分享一下最近学到的名句:运维三板斧——起,停,重启。