大语言模型的训练方法、装置、设备以及介质

正文

推荐专利

申请号：CN202411925361

申请日期：2024-12-25

公开号：CN119783668A

公开日期：2025-04-08

类型：发明专利

摘要

本说明书实施例提供大语言模型的训练方法、装置、设备、计算机可读存储介质以及计算机程序产品，训练方法包括：将文本语料输入大语言模型，得到大语言模型输出的，用于反映大语言模型预测得到的各个文本单元出现的概率的预测特征向量；然后，计算预测特征向量与用于反映各个文本单元在文本语料中的实际出现概率的标签特征向量之间的第一损失值；再然后，计算预测特征向量与用于反映各个文本单元的指定出现概率的参考特征向量之间的第二损失值；最后，基于所述第一损失值和所述第二损失值，训练所述大语言模型，可以保证大语言模型输出的结果与文本语料中的文本的一致性的同时，提高大语言模型输出的多样性。

技术关键词

大语言模型标签文本计算机可执行指令计算机程序产品处理器可读存储介质训练装置输入模块存储器

大语言模型的训练方法、装置、设备以及介质

站点导航

APP 下载