一次CloudLinux服务器频繁重启问题的排查与解决

广告位

在为客户维护一台CloudLinux服务器的过程中,我遇到了一起频繁自动重启的疑难问题。尽管先后尝试了内核升级、Watchdog禁用和系统日志分析等软件层面的排查手段,问题依然存在。最终,通过检查BMC日志与硬件实地检修,发现主板CPU区域存在焦糊现象,CPU过热保护频繁触发是重启的根本原因。更换主板并重新配置网卡后,服务器恢复稳定运行。本文完整记录了故障排查流程,供运维人员参考借鉴。

近日,HostingWIKI的技术人员在协助客户维护服务器过程中,遇到了一台CloudLinux 7.9服务器频繁自动重启的现象。经客户描述,这台机器是一台在Hostease购买的独立服务器,排查过程也有一些曲折,经过系统排查、内核升级、禁用Watchdog及最终的硬件诊断和更换主板,最终成功解决了问题。现将整个过程记录下来,供其他运维人员参考。

一、服务器基本情况

  • 操作系统:CloudLinux 7.9 (内核版本3.10.0-962.3.2.lve1.5.87)
  • 控制面板:WHM/cPanel
  • CPU与内存:Intel Xeon处理器,32GB内存
  • 存储:NVMe SSD

二、故障现象

服务器出现频繁重启,平均每10-15分钟自动重启一次,刚接到这个客户的时候,以为是系统内软件不兼容导致的,通过last reboot命令查看记录,可以确认故障频繁且持续出现:

last reboot | grep 'May 13'
图中展示了2025年5月13日这台服务器的系统重启日志,几乎每隔一至两小时自动重启一次,提示系统存在严重稳定性问题。

日志未发现明显的内核panic或异常信息,kdump未触发。

三、软件层面排查

  1. 升级内核:初步判断可能由于内核或者程序兼容性问题,所以考虑为用户先更新或者降级内核,以排除内核缺陷,首先进行了CloudLinux内核的升级:
yum update kernel\*87\* && reboot

升级内核后,服务器仍然继续频繁重启。

  1. 禁用Watchdog:考虑到可能是Intel TCO Watchdog引起的问题,进行了禁用处理:
echo 'blacklist iTCO_wdt' > /etc/modprobe.d/blacklist-watchdog.conf
echo 'blacklist iTCO_vendor_support' >> /etc/modprobe.d/blacklist-watchdog.conf
dracut -f
ipmitool mc watchdog off

使用lsmod | grep iTCO确认Watchdog已经禁用,但是在禁用后仍然遇到重启问题,因此故障仍未解决。

  1. 检查系统资源占用与日志:通过系统资源监控,未发现内存或CPU负载异常,磁盘I/O负载也正常。系统日志中也未找到相关异常信息。

四、硬件层面排查与解决

  1. 检查BMC SEL日志:通过IPMI工具检查系统事件日志,发现CPU频繁出现过热现象,并伴随CPU降频保护触发:
ipmitool sel elist | grep -i 'CPU Temp'

显示CPU温度频繁达到100°C,触发系统自动保护机制。

  1. 硬件现场检查

由于服务器是在Hostease购买,因此我们提交工单委托Hostease的机房现场人员检查,经过现场反馈,机器可能存在主板散热异常,他们决定更换主板并查看问题是福哦有改善。

于是在与客户确认后,将这台用了好几年的美国服务器更换同型号主板,清洁风道并重新涂抹散热硅脂后,再次启动服务器。在服务器启动后,服务器CPU温度恢复正常,持续负载测试下最高仅72°C,重启问题彻底解决。

五、更换主板后的网络配置调整

由于更换主板后板载网卡MAC地址发生变化,导致网络接口发生变化,网络无法连接,需要重新配置网络接口:

vi /etc/sysconfig/network-scripts/ifcfg-eth1
nmcli con reload && systemctl restart network

由于附加IP是通过WHM面板添加,在主IP可以访问服务器后,我们登录服务器看到附加IP并没有绑定到服务器的网卡上,我们查阅了相关资料,发现在这个案例中,网卡的名字从eno1变成了eth1,因此需要检查WHM是否有手动指定网卡。如果网口名称发生改变,需要在WHM的基本设置中修改成新的网卡。

图中展示了WHM控制面板中网络设备配置项,用户可选择eth0作为默认网络接口,或手动指定其他接口名。

在切换后,在重新刷新一下网卡:

/scripts/rebuildippool
service ipaliases restart

至此网络部分可以正常通信并恢复正常。

六、经验总结与建议

  • 遇到服务器频繁重启问题,除了软件排查外,务必及时检查BMC日志。
  • CPU频繁过温保护,多半与散热系统或主板CPU供电相关。
  • 更换主板后,注意检查网卡MAC地址变动带来的网络配置问题。
  • 定期对服务器硬件进行散热清洁与维护,有助于避免类似问题。

此次排查过程,再次强调了对BMC硬件日志的重要性,以及硬件维保在服务器运维中的关键地位,希望此文能帮助大家高效解决类似故障。

关于作者: Harrison

Harrison_K 是 HostingWiki.cn 的核心编辑与站长,长期专注于服务器、虚拟主机、VPS、独立服务器、高防服务器等领域内容建设与研究。凭借对全球IDC市场的深入理解与丰富实操经验,Harrison_K 致力于为中文用户提供权威、详实且实用的主机购买指南、使用教程与平台测评内容。

为您推荐

广告位

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注