一种基于NARX模型的大模型训练慢节点检测方法

AITNT
正文
推荐专利
一种基于NARX模型的大模型训练慢节点检测方法
申请号:CN202410864138
申请日期:2024-06-30
公开号:CN118586473A
公开日期:2024-09-03
类型:发明专利
摘要
本发明公开了一种基于NARX模型的大模型训练慢节点检测方法,包括:模型的准备,通过实际的训练获取一个NARX模型;模型的应用,通过使用训练好的模型对实际训练过程中的节点进行检测,发现异常,并根据模型的实际情况进行自动化处理。本发明通过节点参数面和存储面网卡的input和ouput数据训练一个对应框架和模型的NARX模型,然后将训练好的NARX模型用于分布式模型训练中,通过对训练过程中各节点多网卡数据的实时检测,进行网络异常发现,进而预测节点异常,并根据模型训练的实际情况对异常节点进行处理,提升慢节点的发现时间和定位,最终提升大模型的训练效率,降低因节点异常导致的重复训练等卡时浪费,当流量出现异常第一时间就能识别到。
技术关键词
NARX模型 节点检测方法 网卡 时间序列数据库 分布式模型 神经网络参数 任务调度 仓库 框架 时序
系统为您推荐了相关专利信息
1
网络通信方法、装置和计算机设备
网卡 交换机 网络通信方法 端口 网络通信装置
2
一种基于区块链技术的特征数据嗅探系统
区块链技术 数据分析模块 存储模块 机器学习算法 数据安全性
3
实现服务链伪代理的方法及设备
虚拟防火墙 智能网卡 报文特征 处理器 列表
4
一种网卡组件
网卡组件 L型挡板 信号接收器 控制芯片 移动块
5
服务器的报文转发方法及装置、存储介质和电子设备
交换机 虚拟局域网标签 开放流控制器 端口 报文转发方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号