月度归档:2020年03月

检测DEVICE硬件错误

mcelog 是Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。
比如服务器隔一段时间莫名的重启一次,而message和syslog又检测不到有价值的信息。
通常发生MCE报错的原因有如下:
1、内存报错或者ECC问题
2、处理器过热
3、系统总线错误
4、CPU或者硬件缓存错误
一般来说当有错误提示时,需要优先注意内存问题,但由于现在内存控制器是集成在cpu里,所以有个别情况是由CPU问题引起的。
安装mcelog

继续阅读