摘要
本发明属于芯片故障处理技术领域,具体涉及一种AI芯片故障软件自适应恢复系统及方法,实时采集每个AI芯片的性能参数以及任务处理数据,判断是否存在AI芯片故障,若是判断当前故障AI芯片目前正在处理的数据类别以及AI任务的类别;检测其余可用AI芯片的性能参数以及对应的处理的数据和任务类别;基于当前故障AI芯片的剩余数据和任务类别建立当前可用AI芯片的优先级;根据优先级实现对可用AI芯片的分配;监测优先级最高的AI芯片的运行性能参数以及任务处理数据,判断该AI芯片是否正常运行或者对新任务处理的性能参数是否满足指定要求,克服了任务重调度、任务重调度到新节点的技术问题,确保系统能够正常工作。
技术关键词
芯片
恢复方法
评分机制
数据
软件
恢复系统
监测模块
标记
文本
语音
标签
理论
视频
节点
资源
图像