面向大模型场景的异常诊断方法、装置、电子设备和存储介质

AITNT
正文
推荐专利
面向大模型场景的异常诊断方法、装置、电子设备和存储介质
申请号:CN202510838957
申请日期:2025-06-20
公开号:CN120743599A
公开日期:2025-10-03
类型:发明专利
摘要
本公开的实施例提供了一种面向大模型场景的异常诊断方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体涉及大模型训练、分布式模型训练、云计算等技术领域,该方法包括:获取模型训练集群中各节点执行训练任务的运行数据,其中运行数据包括训练任务的运行时间数据;根据训练任务的运行时间数据确定异常任务以及异常任务相关的候选异常节点;对候选异常节点的运行数据进行归因分析,确定目标异常节点以及对应的目标异常原因。该方法提升了模型训练过程中异常诊断的全面性和深度,能够快速精准地定位到异常节点并提供异常的具体根因,从而提升模型训练的效率和稳定性。
技术关键词
节点 模型场景 历史运行数据 归因 诊断方法 网络拓扑链路 数据建立时间 指标 通信带宽 异常诊断装置 异常事件 内核 分布式模型 集群 动态链接库 电子设备 处理器 网络抖动
系统为您推荐了相关专利信息
1
基于人工智能的前端性能诊断方法、装置、设备
性能诊断方法 人工智能模型 指标 数据 性能诊断装置
2
一种基于人工智能的风电机组传动链振动监测诊断方法、系统
风电机组传动链 监测诊断方法 访问控制模型 在线监测分析 风电机组故障
3
一种应用系统智能运维方法及系统
智能运维方法 3DES算法 加密数据 ECDSA算法 智能运维系统
4
面向组合优化问题的结构可感知的代码生成方法及系统
代码生成方法 生成结构 自然语言 神经网络训练方法 优化训练方法
5
一种用于延迟计算的精度测试平台
精度测试平台 EDA工具 时序 逻辑门 单输入单输出
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号