一种大模型训练挂起和降速场景下故障定位方法

AITNT
正文
推荐专利
一种大模型训练挂起和降速场景下故障定位方法
申请号:CN202510798395
申请日期:2025-06-16
公开号:CN120675912A
公开日期:2025-09-19
类型:发明专利
摘要
本公开提供一种大模型训练挂起和降速场景下故障定位方法。包括在线数据采集模块和离线数据分析模型两个模块:在线数据采集模块负责大模型训练过程中关键位置的日志采集,包括API拦截子模块和WR测量子模块两个子模块;离线数据分析模块用于处理采集到的日志信息,构建方法为:首先根据API拦截采集的结果和训练配置生成训练的计算运行图,并计算每个阶段所花费的时间;然后采用关键路径算法分析每次迭代过程中对训练时长影响起决定作用的关键路径,再通过对比历史训练记录的时间长度来判断性能是否产生了挂起问题或降速问题的异常状态,提高故障诊断的效率和准确率。
技术关键词
故障定位方法 子模块 数据采集模块 数据分析模型 数据分析模块 离线 接收端 场景 判断方法 滑动窗口算法 异常状态 计数器 环形缓冲区 日志 节点 在线 队列 工作流
系统为您推荐了相关专利信息
1
一种基于多尺度协同增强和语义补偿的复杂环境车道线精准检测方法
线精准检测方法 语义 多尺度 子模块 生成特征
2
基于多源数据融合的市政桥梁结构健康智能检测系统
智能检测系统 市政桥梁 数据采集模块 GPS定位设备 桥梁健康状态
3
基于三维模型和物联网的基础设施可视化管理系统及方法
可视化管理系统 可视化管理方法 可视化平台 物联网平台 管理基础设施
4
一种多技术栈之间的通信方法
页面 信息处理模块 通信方法 子模块 参数
5
一种粗粒度与细粒度结合的孤独症识别系统及方法
切片 特征提取模型 细粒度特征 特征提取模块 识别系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号