摘要
本申请提供了基于智能预测的PCIe设备故障监测与动态处理方法,该方法通过从基板管理控制器BMC、操作系统及PCIe设备寄存器中获取运行参数,进行处理及时序特征提取后,输入部署于BMC中的轻量化长短期记忆网络LSTM模型进行故障概率预测。结合预测结果与运行参数计算设备健康评分,根据评分触发告警、带宽降级或硬件隔离操作。硬件隔离模块通过I²C总线向复杂可编程逻辑器件CPLD发送控制指令,实现目标设备的无中断断电隔离。通过加密通信将实时数据上传至云端服务器,执行模型微调后回传更新权重,实现模型的持续优化与版本控制。本发明可广泛应用于服务器等计算设备中,提升系统可用性与容错能力。
技术关键词
设备运行参数
设备故障监测
LSTM模型
基板管理控制器
云端服务器
可编程逻辑器件
长短期记忆网络
控制电源开关
模型更新
PCIe交换机
验证数据完整性
实时数据
IPMI协议
隔离模块
PCIe设备
调用操作系统
供电线路
SSH协议
动态