【银河麒麟高级服务器操作系统】数据中心系统异常卡死分析&处理建议

发布于:2024-07-11 ⋅ 阅读:(9) ⋅ 点赞:(0)

了解银河麒麟操作系统更多全新产品,请点击访问:https://product.kylinos.cn

1.服务器环境以及配置

【机型】浪潮NF5280M5

处理器:

Intel

内存:

1T

【内核版本】

4.19.90-24.4.v2101.ky10.x86_64

【OS镜像版本】

银河麒麟高级服务器操作系统 Kylin-Server-10-SP2-Release-0524-x86_64

2.问题现象描述

宕机时间凌晨2点09分左右,系统异常卡死,后手动重启系统,恢复的故障环境。需系统层面,分析排查。

3.问题分析

分析系统日志,可知,系统重启时间为02:54左右。查看重启时间之前的messages日志信息,未看到有效报错日志,只有内核层面正常记录的audit审计模块相关日志信息输出,如图1、图2和图3:

图1

图2

图3

进一步分析,查看系统sar和kdump内核崩溃相关日志信息。发现此系统,未安装系统性能监控工具sysstat、禁用了kdump内核崩溃收集服务。如图4和图5:

图4 kdump服务disable禁用

图5 未安装sysstat

   

查看bmc日志,搜索error关键字,未排查到此次系统卡死,跟系统相关的信息,如图6:

图6

4.问题分析结果

综上,日志分析情况,未能通过系统和bmc日志,排查到有效报错信息。因未启用kdump服务,未收集到内核崩溃相关日志,无法判断系统卡死,是否跟系统内核有关。未安装系统性能监控工具sysstat, 没有收集到,系统性能日志,同样无法分析判断,系统卡死,是否跟CPU、内存、磁盘IO等资源异常使用有关。

5.后续计划与建议

建议,系统层,开启kdump服务,安装系统性能监控工具sysstat。等下次问题复现,收集到这些日志信息,可进一步分析,明确问题方向。

  1. 开启kdump服务,命令如下:

启动服务

#systemctl start kdump

#systemctl enable kdump

查看服务状态

# kdumpctl status

# systemctl status kdump.service

  1. 安装性能监控工具sysstat,命令如下:

软件包下载链接:

https://update.cs2c.com.cn/NS/V10/V10SP2/os/adv/lic/updates/x86_64/Packages/sysstat-12.2.1-6.ky10.x86_64.rpm

#rpm -ivh sysstat-12.2.1-6.ky10.x86_64.rpm

# systemctl start sysstat

# systemctl enable sysstat