近日,HostingWIKI的技术人员在协助客户维护服务器过程中,遇到了一台CloudLinux 7.9服务器频繁自动重启的现象。经客户描述,这台机器是一台在Hostease购买的独立服务器,排查过程也有一些曲折,经过系统排查、内核升级、禁用Watchdog及最终的硬件诊断和更换主板,最终成功解决了问题。现将整个过程记录下来,供其他运维人员参考。
一、服务器基本情况
- 操作系统:CloudLinux 7.9 (内核版本3.10.0-962.3.2.lve1.5.87)
- 控制面板:WHM/cPanel
- CPU与内存:Intel Xeon处理器,32GB内存
- 存储:NVMe SSD
二、故障现象
服务器出现频繁重启,平均每10-15分钟自动重启一次,刚接到这个客户的时候,以为是系统内软件不兼容导致的,通过last reboot
命令查看记录,可以确认故障频繁且持续出现:
last reboot | grep 'May 13'

日志未发现明显的内核panic或异常信息,kdump未触发。
三、软件层面排查
- 升级内核:初步判断可能由于内核或者程序兼容性问题,所以考虑为用户先更新或者降级内核,以排除内核缺陷,首先进行了CloudLinux内核的升级:
yum update kernel\*87\* && reboot
升级内核后,服务器仍然继续频繁重启。
- 禁用Watchdog:考虑到可能是Intel TCO Watchdog引起的问题,进行了禁用处理:
echo 'blacklist iTCO_wdt' > /etc/modprobe.d/blacklist-watchdog.conf echo 'blacklist iTCO_vendor_support' >> /etc/modprobe.d/blacklist-watchdog.conf dracut -f ipmitool mc watchdog off
使用lsmod | grep iTCO
确认Watchdog已经禁用,但是在禁用后仍然遇到重启问题,因此故障仍未解决。
- 检查系统资源占用与日志:通过系统资源监控,未发现内存或CPU负载异常,磁盘I/O负载也正常。系统日志中也未找到相关异常信息。
四、硬件层面排查与解决
- 检查BMC SEL日志:通过IPMI工具检查系统事件日志,发现CPU频繁出现过热现象,并伴随CPU降频保护触发:
ipmitool sel elist | grep -i 'CPU Temp'
显示CPU温度频繁达到100°C,触发系统自动保护机制。
- 硬件现场检查:
由于服务器是在Hostease购买,因此我们提交工单委托Hostease的机房现场人员检查,经过现场反馈,机器可能存在主板散热异常,他们决定更换主板并查看问题是福哦有改善。
于是在与客户确认后,将这台用了好几年的美国服务器更换同型号主板,清洁风道并重新涂抹散热硅脂后,再次启动服务器。在服务器启动后,服务器CPU温度恢复正常,持续负载测试下最高仅72°C,重启问题彻底解决。
五、更换主板后的网络配置调整
由于更换主板后板载网卡MAC地址发生变化,导致网络接口发生变化,网络无法连接,需要重新配置网络接口:
vi /etc/sysconfig/network-scripts/ifcfg-eth1 nmcli con reload && systemctl restart network
由于附加IP是通过WHM面板添加,在主IP可以访问服务器后,我们登录服务器看到附加IP并没有绑定到服务器的网卡上,我们查阅了相关资料,发现在这个案例中,网卡的名字从eno1变成了eth1,因此需要检查WHM是否有手动指定网卡。如果网口名称发生改变,需要在WHM的基本设置中修改成新的网卡。

在切换后,在重新刷新一下网卡:
/scripts/rebuildippool service ipaliases restart
至此网络部分可以正常通信并恢复正常。
六、经验总结与建议
- 遇到服务器频繁重启问题,除了软件排查外,务必及时检查BMC日志。
- CPU频繁过温保护,多半与散热系统或主板CPU供电相关。
- 更换主板后,注意检查网卡MAC地址变动带来的网络配置问题。
- 定期对服务器硬件进行散热清洁与维护,有助于避免类似问题。
此次排查过程,再次强调了对BMC硬件日志的重要性,以及硬件维保在服务器运维中的关键地位,希望此文能帮助大家高效解决类似故障。