摘要
本公开的实施例提供了一种面向大模型场景的异常诊断方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体涉及大模型训练、分布式模型训练、云计算等技术领域,该方法包括:获取模型训练集群中各节点执行训练任务的运行数据,其中运行数据包括训练任务的运行时间数据;根据训练任务的运行时间数据确定异常任务以及异常任务相关的候选异常节点;对候选异常节点的运行数据进行归因分析,确定目标异常节点以及对应的目标异常原因。该方法提升了模型训练过程中异常诊断的全面性和深度,能够快速精准地定位到异常节点并提供异常的具体根因,从而提升模型训练的效率和稳定性。
技术关键词
节点
模型场景
历史运行数据
归因
诊断方法
网络拓扑链路
数据建立时间
指标
通信带宽
异常诊断装置
异常事件
内核
分布式模型
集群
动态链接库
电子设备
处理器
网络抖动
系统为您推荐了相关专利信息
性能诊断方法
人工智能模型
指标
数据
性能诊断装置
风电机组传动链
监测诊断方法
访问控制模型
在线监测分析
风电机组故障
智能运维方法
3DES算法
加密数据
ECDSA算法
智能运维系统
代码生成方法
生成结构
自然语言
神经网络训练方法
优化训练方法
精度测试平台
EDA工具
时序
逻辑门
单输入单输出