摘要
本发明涉及芯片设计技术领域,特别涉及一种并行计算芯片模块级自愈方法、系统、设备及存储介质。该并行计算芯片模块级自愈方法,在并行计算芯片的流式多处理器SM模块部署分布式传感器集群,利用传感器集群实时采集检测数据,包括物理层参数,逻辑层状态和错误事件;根据当前流式多处理器SM模块的负载率与风险等级,自定义调整传感器数据融合权重;根据权重分配对多源数据进行加权求和,生成模块健康度评分和风险等级,依据健康度评分和故障风险等级判定恢复指令分级。该并行计算芯片模块级自愈方法、系统、设备及存储介质,能够将故障恢复延迟压缩至微秒级,显著提升了数据中心、自动驾驶等高可靠场景下并行计算芯片的连续运行能力与资源利用率。
技术关键词
多处理器
自愈方法
芯片模块
恢复控制器
动态权重分配
指令流
分布式传感器
指令缓冲器
集群
高风险
逻辑
指针
芯片设计技术
数据
供电噪声
封包结构
系统为您推荐了相关专利信息
微流控芯片装置
浮游藻类
调焦平台
显微成像模块
物镜
辅助驾驶系统
数字量输出板卡
数字量输入板卡
记录板卡
通信板卡
动态网络图
企业
节点
动态权重分配
产业链分析系统
处理器芯片
集成电路封装结构
多处理器
粘接结构
测量点