训练大语言模型的方法及装置

正文

推荐专利

训练大语言模型的方法及装置

申请号：CN202510213820

申请日期：2025-02-25

公开号：CN120046685A

公开日期：2025-05-27

类型：发明专利

摘要

本说明书实施例涉及训练大语言模型的方法及装置，方法包括：首先，通过将目标批次的训练样本输入所述大语言模型，确定目标训练轮次的过程数据，所述训练样本包括文本数据，所述过程数据包括训练损失值或各个参数的梯度值；然后，获取对目标训练轮次之前的连续N个训练轮次的过程数据进行统计得到的基准值；接下来，当所述目标训练轮次的过程数据与所述基准值之间的目标差异超过预设的第一阈值时，将所述目标训练轮次确定为异常训练轮次；最后，对所述异常训练轮次进行目标处理；所述目标处理包括跳过所述异常训练轮次，或者调整所述异常训练轮次中的超参数，以降低该异常训练轮次的影响。

技术关键词

大语言模型数据超参数协方差矩阵文本计算机可读存储介质处理单元规模存储器噪声处理器指数标记

系统为您推荐了相关专利信息

基于深度学习的土壤修复效果动态评估系统及方法

动态评估系统生态恢复多源监测数据深度学习模型土壤修复过程

注意力机制融合化工过程双模态信息的故障诊断模型

故障诊断模型双模态模态特征注意力机制文本

基于多模态生理数据与动态决策模型的VR教学优化方法、系统及计算机设备

教学优化方法多模态生理融合特征脑电特征决策

基于微控制器与可编程逻辑器件的视频处理方法及系统

可编程逻辑器件图像边缘特征像素点微控制器伽马校正

一种基于深度神经网络的形变预测方法

深度神经网络有限元分析软件 ANSYS软件扩充训练样本数据

训练大语言模型的方法及装置

站点导航

APP 下载