大模型恢复训练的方法及装置、存储介质及电子装置

正文

推荐专利

申请号：CN202510540720

申请日期：2025-04-25

公开号：CN120525018A

公开日期：2025-08-22

类型：发明专利

摘要

本申请公开了一种大模型恢复训练的方法及装置、存储介质及电子装置，包括：确定在大模型更新权重参数时发生故障的第一故障节点；从第一故障节点所属的数据并行组内确定第一故障节点对应的第一非故障节点，其中，数据并行组是基于数据并行策略对大模型的训练数据集进行划分得到的；将第一故障节点的初始权重参数更新为目标权重参数，以基于目标权重参数恢复训练大模型，目标权重参数由第一非故障节点基于初始权重参数计算得到，解决了在发生节点故障的大模型训练场景中，如何及时确定故障时刻的权重参数以减少模型恢复训练时间的技术问题。

技术关键词

节点数据并行策略参数模型更新优化器设备故障信号电子装置分布式训练异步控制训练场景流水计算机程序产品算法处理器集群存储器模块

系统为您推荐了相关专利信息

数据关联关系确定方法、系统、设备、介质及程序产品

数据关联关系多项式输出特征非线性处理器节点特征

多通道电调天线的幅相一致性自动化测试方法及系统

电调天线自动化测试方法幅相误差多通道后验概率分布

一种七轴机器人的零位标定方法

零位标定方法机器人控制系统七轴机器人角度校准坐标系校准

一种适用于直流三端口元件的离散状态空间模型建立方法及装置

离散状态空间三端口元件模型建立方法矩阵

一种船舶管道电加热方法及系统

历史温度数据船舶电加热方法 PID控制器神经网络模型

大模型恢复训练的方法及装置、存储介质及电子装置

站点导航

APP 下载