浪潮服务器针对OS下内存MCE错误的说明

问题描述:

客户在OS下监控到存在MCE内存报错,但BMC与黑盒日志中均无内存报错记录,需要分析内存是否应该更换

涉及范围:

硬件:浪潮M4M5平台服务器

软件:Linux系统,诸如RHELRedhat)、CentOSSLESSuse)、Ubuntu

故障根因:

内存的可修复ECC报错记录有两条路径:一是,当可修复的ECC达到BIOS设定的阈值之后触发SMI中断,BIOS收集信息上报BMCBMCSEL日志记录故障信息,二是,每发生一次可修复的ECC,都会产生CMCI中断给到OSOS进行记录处理。

内存ECCError Checking and Correcting)机制为服务器及服务器内存的高容错功能,在客户端出现可纠正ECC错误,并不会影响系统正常运行,只是代表ECC错误被纠正的一条记录,此时错误本身已经被纠正,产生的ECC纠错记录不会对服务器性能和稳定性产生影响。

建议与总结:

浪潮主机的BIOS/BMC有一套自己的故障处理机制,能够对CPU、内存、PCIe设备故障做统一处理。同时对内存错误有阈值和漏斗过滤控制,当计数到达阈值会触发SMI,这时
BIOS会收集发生CE的内存信息发送到BMC记录到系统日志,BMC能在系统日志记录出错的内存位置和内存错误类型为可纠正错误。
OS内MCE记录的内存错误,每次出现一次可修复的ECC,BIOS就会触发一次CMCI让OS记录,没有阈值设置,也不会做内存错误隔离,会给客户造成一定的困扰。所以建议忽略OS下的内存MCE报错记录。