算力集群内故障图形处理芯片确定方法、装置及电子设备

AITNT
正文
推荐专利
算力集群内故障图形处理芯片确定方法、装置及电子设备
申请号:CN202411882091
申请日期:2024-12-19
公开号:CN119759628B
公开日期:2025-10-03
类型:发明专利
摘要
本公开提供了一种算力集群内故障图形处理芯片确定方法、装置及电子设备,涉及生成式大语言模型、图形处理芯片、算力集群、集合通信操作等技术领域。该方法包括:分别获取与构成算力集群的每个GPU对应的已执行集合通信操作数、通道编号和当前执行的集合通信操作的执行状态信息;对具有相同的通道编号的各GPU,基于相应的已执行集合通信操作数和执行状态信息,确定第一诊断结果;汇总属于同一通信组的各通道分别对应的第一诊断结果,确定第二诊断结果;汇总属于同一训练任务的各通信组分别对应的第二诊断结果,确定目标诊断结果;基于目标诊断结果确定影响当前的训练任务正常执行的故障GPU。该方法可以准确定位导致训练任务hang的故障GPU。
技术关键词
图形处理芯片 层级 通道 集群 诊断模块 定位单元 数据 电子设备 大语言模型 计算机程序产品 处理器通信 指令 可读存储介质 存储器
系统为您推荐了相关专利信息
1
多制式多通道视频处理传输方法
视频流 传输方法 FPGA芯片 多通道 视频解码器
2
一种基于改进YOLOX的氢气气瓶外表面缺陷检测方法
气瓶外表面 缺陷检测方法 氢气瓶 特征金字塔 图像
3
针对隐私型深度伪造的检测方法在联邦协作中的应用方法
中心服务器 差分隐私 节点 参数 客户端
4
一种面向异质可调资源聚合的长方体并凸包方法
长方体 多面体 水电站 异质 资源
5
基于自适应滤波和多通道深度学习的术中低血压预测设备
辅助设备接口 多通道 高分贝蜂鸣器 深度学习模型训练 注意力机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号