摘要
本申请公开了一种大模型恢复训练的方法及装置、存储介质及电子装置,包括:确定在大模型更新权重参数时发生故障的第一故障节点;从第一故障节点所属的数据并行组内确定第一故障节点对应的第一非故障节点,其中,数据并行组是基于数据并行策略对大模型的训练数据集进行划分得到的;将第一故障节点的初始权重参数更新为目标权重参数,以基于目标权重参数恢复训练大模型,目标权重参数由第一非故障节点基于初始权重参数计算得到,解决了在发生节点故障的大模型训练场景中,如何及时确定故障时刻的权重参数以减少模型恢复训练时间的技术问题。
技术关键词
节点
数据并行策略
参数
模型更新
优化器
设备故障信号
电子装置
分布式训练
异步控制
训练场景
流水
计算机程序产品
算法
处理器
集群
存储器
模块
系统为您推荐了相关专利信息
数据关联关系
多项式
输出特征
非线性处理器
节点特征
电调天线
自动化测试方法
幅相误差
多通道
后验概率分布
零位标定方法
机器人控制系统
七轴机器人
角度校准
坐标系校准
历史温度数据
船舶
电加热方法
PID控制器
神经网络模型