摘要
本公开提供一种大模型训练挂起和降速场景下故障定位方法。包括在线数据采集模块和离线数据分析模型两个模块:在线数据采集模块负责大模型训练过程中关键位置的日志采集,包括API拦截子模块和WR测量子模块两个子模块;离线数据分析模块用于处理采集到的日志信息,构建方法为:首先根据API拦截采集的结果和训练配置生成训练的计算运行图,并计算每个阶段所花费的时间;然后采用关键路径算法分析每次迭代过程中对训练时长影响起决定作用的关键路径,再通过对比历史训练记录的时间长度来判断性能是否产生了挂起问题或降速问题的异常状态,提高故障诊断的效率和准确率。
技术关键词
故障定位方法
子模块
数据采集模块
数据分析模型
数据分析模块
离线
接收端
场景
判断方法
滑动窗口算法
异常状态
计数器
环形缓冲区
日志
节点
在线
队列
工作流
系统为您推荐了相关专利信息
智能检测系统
市政桥梁
数据采集模块
GPS定位设备
桥梁健康状态
可视化管理系统
可视化管理方法
可视化平台
物联网平台
管理基础设施
切片
特征提取模型
细粒度特征
特征提取模块
识别系统