一种大型语言模型训练方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510242020

申请日期：2025-03-03

公开号：CN120258104A

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种大型语言模型训练方法、装置、设备及存储介质，通过获取待训练的语料数据训练集，从语料数据训练集中的选择语料数据；利用大型语言模型对语料数据进行预测，得到预测结果，基于预测结果，使用交叉熵损失函数进行计算得到损失值，将所述当前损失值进行保存，并根据保存的当前损失值计算得到当前预设损失值，判断损失值是否小于当前预设损失值，若小于，则不更新模型参数，若大于，则根据损失值更新大型语言模型的模型参数和当前预设损失值后，重新从语料数据训练集中的选择语料数据对大型语言模型的模型参数继续进行更新，直到得到训练好的大型语言模型。通过上述方法计算损失值提高语料数据质量，从而提高了大型语言模型性能。

技术关键词

语言模型训练方法模型训练装置数据训练集更新模型参数存储计算机程序计算机设备模块处理器存储器

系统为您推荐了相关专利信息

智能化的电动汽车和空调的协调管理方法、平台及系统

历史运行数据分布式管理系统调度优化系统数据预测模型时序特征

一种超前地质预报与处理方法

超前地质预报实时图像训练场景卷积神经网络模型掌子面

车辆维修方案预测方法、装置、计算机设备及存储介质

历史维修数据训练集标签计算机可读指令图像

电网领域关键词抽取方法、训练方法、介质和设备

预训练语言模型预训练模型标签预测值文本关键词抽取方法

一种高比例新能源并网下新能源短期智能优化调度方法

智能优化调度方法高比例新能源新能源并网调度新能源出力预测分布式协同

一种大型语言模型训练方法、装置、设备及存储介质

站点导航

APP 下载