摘要
本说明书实施例涉及训练大语言模型的方法及装置,方法包括:首先,通过将目标批次的训练样本输入所述大语言模型,确定目标训练轮次的过程数据,所述训练样本包括文本数据,所述过程数据包括训练损失值或各个参数的梯度值;然后,获取对目标训练轮次之前的连续N个训练轮次的过程数据进行统计得到的基准值;接下来,当所述目标训练轮次的过程数据与所述基准值之间的目标差异超过预设的第一阈值时,将所述目标训练轮次确定为异常训练轮次;最后,对所述异常训练轮次进行目标处理;所述目标处理包括跳过所述异常训练轮次,或者调整所述异常训练轮次中的超参数,以降低该异常训练轮次的影响。
技术关键词
大语言模型
数据
超参数
协方差矩阵
文本
计算机
可读存储介质
处理单元
规模
存储器
噪声
处理器
指数
标记
系统为您推荐了相关专利信息
动态评估系统
生态恢复
多源监测数据
深度学习模型
土壤修复过程
教学优化方法
多模态生理
融合特征
脑电特征
决策
可编程逻辑器件
图像边缘特征
像素点
微控制器
伽马校正
深度神经网络
有限元分析软件
ANSYS软件
扩充训练样本
数据