摘要
本发明公开了一种大型语言模型训练方法、装置、设备及存储介质,通过获取待训练的语料数据训练集,从语料数据训练集中的选择语料数据;利用大型语言模型对语料数据进行预测,得到预测结果,基于预测结果,使用交叉熵损失函数进行计算得到损失值,将所述当前损失值进行保存,并根据保存的当前损失值计算得到当前预设损失值,判断损失值是否小于当前预设损失值,若小于,则不更新模型参数,若大于,则根据损失值更新大型语言模型的模型参数和当前预设损失值后,重新从语料数据训练集中的选择语料数据对大型语言模型的模型参数继续进行更新,直到得到训练好的大型语言模型。通过上述方法计算损失值提高语料数据质量,从而提高了大型语言模型性能。
技术关键词
语言模型训练方法
模型训练装置
数据
训练集
更新模型参数
存储计算机程序
计算机设备
模块
处理器
存储器
系统为您推荐了相关专利信息
历史运行数据
分布式管理系统
调度优化系统
数据预测模型
时序特征
超前地质预报
实时图像
训练场景
卷积神经网络模型
掌子面
预训练语言模型
预训练模型
标签预测值
文本
关键词抽取方法
智能优化调度方法
高比例新能源
新能源并网调度
新能源出力预测
分布式协同