摘要
本发明公开了一种基于NARX模型的大模型训练慢节点检测方法,包括:模型的准备,通过实际的训练获取一个NARX模型;模型的应用,通过使用训练好的模型对实际训练过程中的节点进行检测,发现异常,并根据模型的实际情况进行自动化处理。本发明通过节点参数面和存储面网卡的input和ouput数据训练一个对应框架和模型的NARX模型,然后将训练好的NARX模型用于分布式模型训练中,通过对训练过程中各节点多网卡数据的实时检测,进行网络异常发现,进而预测节点异常,并根据模型训练的实际情况对异常节点进行处理,提升慢节点的发现时间和定位,最终提升大模型的训练效率,降低因节点异常导致的重复训练等卡时浪费,当流量出现异常第一时间就能识别到。
技术关键词
NARX模型
节点检测方法
网卡
时间序列数据库
分布式模型
神经网络参数
任务调度
仓库
框架
时序
系统为您推荐了相关专利信息
区块链技术
数据分析模块
存储模块
机器学习算法
数据安全性
交换机
虚拟局域网标签
开放流控制器
端口
报文转发方法