面向大模型场景的异常诊断方法、装置、电子设备和存储介质

正文

推荐专利

申请号：CN202510838957

申请日期：2025-06-20

公开号：CN120743599A

公开日期：2025-10-03

类型：发明专利

摘要

本公开的实施例提供了一种面向大模型场景的异常诊断方法、装置、电子设备和存储介质，涉及人工智能技术领域，具体涉及大模型训练、分布式模型训练、云计算等技术领域，该方法包括：获取模型训练集群中各节点执行训练任务的运行数据，其中运行数据包括训练任务的运行时间数据；根据训练任务的运行时间数据确定异常任务以及异常任务相关的候选异常节点；对候选异常节点的运行数据进行归因分析，确定目标异常节点以及对应的目标异常原因。该方法提升了模型训练过程中异常诊断的全面性和深度，能够快速精准地定位到异常节点并提供异常的具体根因，从而提升模型训练的效率和稳定性。

技术关键词

节点模型场景历史运行数据归因诊断方法网络拓扑链路数据建立时间指标通信带宽异常诊断装置异常事件内核分布式模型集群动态链接库电子设备处理器网络抖动

系统为您推荐了相关专利信息

基于人工智能的前端性能诊断方法、装置、设备

性能诊断方法人工智能模型指标数据性能诊断装置

一种基于人工智能的风电机组传动链振动监测诊断方法、系统

风电机组传动链监测诊断方法访问控制模型在线监测分析风电机组故障

一种应用系统智能运维方法及系统

智能运维方法 3DES算法加密数据 ECDSA算法智能运维系统

面向组合优化问题的结构可感知的代码生成方法及系统

代码生成方法生成结构自然语言神经网络训练方法优化训练方法

一种用于延迟计算的精度测试平台

精度测试平台 EDA工具时序逻辑门单输入单输出

面向大模型场景的异常诊断方法、装置、电子设备和存储介质

站点导航

APP 下载