一次CloudLinux服务器频繁重启问题的排查与解决

近日，HostingWIKI的技术人员在协助客户维护服务器过程中，遇到了一台CloudLinux 7.9服务器频繁自动重启的现象。经客户描述，这台机器是一台在Hostease购买的独立服务器，排查过程也有一些曲折，经过系统排查、内核升级、禁用Watchdog及最终的硬件诊断和更换主板，最终成功解决了问题。现将整个过程记录下来，供其他运维人员参考。

一、服务器基本情况

操作系统：CloudLinux 7.9 (内核版本3.10.0-962.3.2.lve1.5.87)
控制面板：WHM/cPanel
CPU与内存：Intel Xeon处理器，32GB内存
存储：NVMe SSD

二、故障现象

服务器出现频繁重启，平均每10-15分钟自动重启一次，刚接到这个客户的时候，以为是系统内软件不兼容导致的，通过last reboot命令查看记录，可以确认故障频繁且持续出现：

last reboot | grep 'May 13'

图中展示了2025年5月13日这台服务器的系统重启日志，几乎每隔一至两小时自动重启一次，提示系统存在严重稳定性问题。

日志未发现明显的内核panic或异常信息，kdump未触发。

三、软件层面排查

升级内核：初步判断可能由于内核或者程序兼容性问题，所以考虑为用户先更新或者降级内核，以排除内核缺陷，首先进行了CloudLinux内核的升级：

yum update kernel\*87\* && reboot

升级内核后，服务器仍然继续频繁重启。

禁用Watchdog：考虑到可能是Intel TCO Watchdog引起的问题，进行了禁用处理：

echo 'blacklist iTCO_wdt' > /etc/modprobe.d/blacklist-watchdog.conf
echo 'blacklist iTCO_vendor_support' >> /etc/modprobe.d/blacklist-watchdog.conf
dracut -f
ipmitool mc watchdog off

使用lsmod | grep iTCO确认Watchdog已经禁用，但是在禁用后仍然遇到重启问题，因此故障仍未解决。

检查系统资源占用与日志：通过系统资源监控，未发现内存或CPU负载异常，磁盘I/O负载也正常。系统日志中也未找到相关异常信息。

四、硬件层面排查与解决

检查BMC SEL日志：通过IPMI工具检查系统事件日志，发现CPU频繁出现过热现象，并伴随CPU降频保护触发：

ipmitool sel elist | grep -i 'CPU Temp'

显示CPU温度频繁达到100°C，触发系统自动保护机制。

硬件现场检查：

由于服务器是在Hostease购买，因此我们提交工单委托Hostease的机房现场人员检查，经过现场反馈，机器可能存在主板散热异常，他们决定更换主板并查看问题是福哦有改善。

于是在与客户确认后，将这台用了好几年的美国服务器更换同型号主板，清洁风道并重新涂抹散热硅脂后，再次启动服务器。在服务器启动后，服务器CPU温度恢复正常，持续负载测试下最高仅72°C，重启问题彻底解决。

五、更换主板后的网络配置调整

由于更换主板后板载网卡MAC地址发生变化，导致网络接口发生变化，网络无法连接，需要重新配置网络接口：

vi /etc/sysconfig/network-scripts/ifcfg-eth1
nmcli con reload && systemctl restart network

由于附加IP是通过WHM面板添加，在主IP可以访问服务器后，我们登录服务器看到附加IP并没有绑定到服务器的网卡上，我们查阅了相关资料，发现在这个案例中，网卡的名字从eno1变成了eth1，因此需要检查WHM是否有手动指定网卡。如果网口名称发生改变,需要在WHM的基本设置中修改成新的网卡。

图中展示了WHM控制面板中网络设备配置项，用户可选择eth0作为默认网络接口，或手动指定其他接口名。

在切换后，在重新刷新一下网卡：

/scripts/rebuildippool
service ipaliases restart

至此网络部分可以正常通信并恢复正常。

六、经验总结与建议

遇到服务器频繁重启问题，除了软件排查外，务必及时检查BMC日志。
CPU频繁过温保护，多半与散热系统或主板CPU供电相关。
更换主板后，注意检查网卡MAC地址变动带来的网络配置问题。
定期对服务器硬件进行散热清洁与维护，有助于避免类似问题。

此次排查过程，再次强调了对BMC硬件日志的重要性，以及硬件维保在服务器运维中的关键地位，希望此文能帮助大家高效解决类似故障。

一、服务器基本情况

二、故障现象

三、软件层面排查

四、硬件层面排查与解决

五、更换主板后的网络配置调整

六、经验总结与建议

关于作者: Harrison

发表回复取消回复

一、服务器基本情况

二、故障现象

三、软件层面排查

四、硬件层面排查与解决

五、更换主板后的网络配置调整

六、经验总结与建议

给这篇文章的作者打赏

关于作者: Harrison

为您推荐

cPanel,香港虚拟主机,主机管理,建站教程,数据库,SSL证书

香港云主机支持哪些操作系统和开发环境？一文看懂Linux、Windows与Docker的选择与实战

Hostease香港虚拟空间深度测评：速度、安全性与性价比全面解析

Linux启动故障不再慌？掌握这套综合排查技巧，让你的服务器快速恢复运行

CloudLinux 6启动异常？教你手动修复文件系统一致性错误的完整解决方案

通过GRUB进入单用户/维护模式——CloudLinux 6/CentOS 6老服务器救援实战

发表回复 取消回复

发表回复取消回复