摘要
本公开提供了一种算力集群内故障图形处理芯片确定方法、装置及电子设备,涉及生成式大语言模型、图形处理芯片、算力集群、集合通信操作等技术领域。该方法包括:分别获取与构成算力集群的每个GPU对应的已执行集合通信操作数、通道编号和当前执行的集合通信操作的执行状态信息;对具有相同的通道编号的各GPU,基于相应的已执行集合通信操作数和执行状态信息,确定第一诊断结果;汇总属于同一通信组的各通道分别对应的第一诊断结果,确定第二诊断结果;汇总属于同一训练任务的各通信组分别对应的第二诊断结果,确定目标诊断结果;基于目标诊断结果确定影响当前的训练任务正常执行的故障GPU。该方法可以准确定位导致训练任务hang的故障GPU。
技术关键词
图形处理芯片
层级
通道
集群
诊断模块
定位单元
数据
电子设备
大语言模型
计算机程序产品
处理器通信
指令
可读存储介质
存储器
系统为您推荐了相关专利信息
视频流
传输方法
FPGA芯片
多通道
视频解码器
气瓶外表面
缺陷检测方法
氢气瓶
特征金字塔
图像
辅助设备接口
多通道
高分贝蜂鸣器
深度学习模型训练
注意力机制