摘要
本发明公开了基于CPU与BMC协同的硬件故障实时检测方法和系统,包括如下步骤:通过建立CPU与BMC两者间的通信机制,分别采集高频状态数据与趋势性指标。处理器使用CUSUM算法对周期性采集的运行状态进行突变分析,生成突变事件;管理控制器使用EWMA算法对趋势数据建模,提取异常变化。系统将突变事件与趋势异常进行融合分析,形成融合异常向量。风险评估模块基于预设规则计算风险评分,确定故障等级,定位目标部件,并输出处理策略。根据策略触发响应动作并记录执行状态。融合数据与响应记录一并输入自适应模块,用于动态调整CUSUM与EWMA参数,实现算法自适应更新,最终生成故障检测信号。
技术关键词
故障实时检测方法
字段
故障检测信号
异常信号
周期
分析模块
基板管理控制器
融合特征
序列
策略
数据项
参数
IPMI协议
中央处理器模块
算法模块