Proxmox VE 集群崩溃恢复:移除故障节点并退出集群

发表于 2025-09-10 18:31:05 分类于 默认分类 阅读量 79

Proxmox VE 集群崩溃恢复:移除故障节点并退出集群

在生产环境中,Proxmox VE (PVE) 集群有时会因硬件故障或网络问题导致节点不可用。为了尽快恢复集群稳定性,我们需要将故障节点移除并让其退出集群。以下是一个简要的操作步骤总结。


操作步骤

1. 停止故障节点上的集群相关服务

在需要隔离的故障节点上,先停止 pve-clustercorosync 服务:

systemctl stop pve-cluster.service
systemctl stop corosync.service

2. 将集群文件系统设置为本地模式

执行以下命令,将节点的 pmxcfs 切换为本地模式:

pmxcfs -l

3. 删除 corosync 配置文件

清理集群配置相关文件:

rm /etc/pve/corosync.conf
rm -rf /etc/corosync/*

4. 重启集群文件系统服务

先杀掉残留的进程,再重启服务:

killall pmxcfs
systemctl start pve-cluster.service

5. 删除故障节点的集群配置目录

进入 /etc/pve/nodes 目录,找到对应的节点目录并删除:

cd /etc/pve/nodes
ls
rm -rf /etc/pve/nodes/pve2    # 将 pve2 替换为故障节点的目录名

成功判断

以上步骤执行后若无报错,即表示节点已成功从集群中移除。集群环境应恢复正常运行。


总结

本文总结了 Proxmox VE 集群崩溃恢复时移除故障节点的基本方法。操作前建议先做好相关数据和配置的备份,以避免误操作导致数据丢失。

正物博客
一路向前,山海自平