摘要
本发明涉及服务器技术领域,公开了一种高速串行计算机扩展总线标准设备故障监测方法及装置,应用于基板管理控制器芯片,包括:在服务器整机运行过程中,实时监控所有高速串行计算机扩展总线标准设备;当监控到任一高速串行计算机扩展总线标准设备报错时,获取并记录报错设备中的错误类型;对记录的不同错误类型进行分类汇总及分析;根据汇总及分析结果,实时检测各个高速串行计算机扩展总线标准设备的不可纠正错误是否达到宕机阈值;若是,则自动屏蔽或禁用掉达到宕机阈值的设备。这样在故障累积到阈值时主动对故障设备进行隔离保护,可以解决高速串行计算机扩展总线标准设备在运行过程中出现的各类报错而易导致服务器宕机的问题。
技术关键词
计算机扩展总线
设备故障监测方法
输入输出系统
整体健康状态
基板管理控制器
宕机
设备故障监测装置
纠正错误
控制操作系统
服务器
可编程逻辑器件
可读存储介质
存储计算机程序
芯片
中央处理器
协议
监控模块
分析模块
通知