【运维随笔】 记录一次rabbitmq启动故障排查

由于故障排查已经过了一段时间再写的这个随便,故这次无相关截图

某天,运行正常的rabbitmq挂掉了,然后去重启的时候报错,启动不了,通过查看systemctl status rabbitmq -l 和journalctl -u rabbitmq 查看错误信息,发现也没有什么有价值的信息。
然后尝试着把/var/lib/rabbitmq/mnesia/ 目录下的文件移走,再重新启动,发现依然是报一样的启动错误,也没有可参考的信息。

接下来再次检查了配置文件,确认配置文件没有写错,关键是检查看有没有格式标点错误,或者被人修改过

检查完和集群其他机器也对比了,无任何有问题的地方。

最后尝试直接使用rabbitmq-server 这种方式直接启动,想着看看前台会输出什么错误信息可供参考。

运行启动程序后,直接输出了一个no space相关的信息。然后df -h 一看,发现确实是没空间了,但是空间刚好还剩一点点,所以在运行命令的时候也还是可以正常的tab补全,导致一开始没有想到空间的问题