大语言模型的优化方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202410796661

申请日期：2024-06-20

公开号：CN118364870B

公开日期：2024-11-19

类型：发明专利

摘要

本发明公开了一种大语言模型的优化方法、装置、电子设备及存储介质，涉及人工智能技术领域，所述大语言模型的优化方法具体包括以下步骤：S10，结合原LLM模型和大模型SFT数据集生成训练数据集；S20，在原LLM模型的主干网络中嵌入旁支网络，以获得新LLM模型，并在旁支网络的输入端输入掩码词元序列；S30，在训练数据集上采用损失函数对新LLM模型进行训练，训练完成后，LLM模型能够在一次推理中预测多个候选词元序列；S40，并行执行候选词元序列的生成和候选词元序列正确性的验证。本发明的有益效果：既节约了资源消耗和时间，又增强了LLM模型的解码能力，还保证了LLM模型输出结果的质量。

技术关键词

大语言模型序列计算机可读指令生成训练数据拼接模块输入端网络优化装置电子设备答案人工智能技术数据处理模块处理器解码存储器标识符输出端表达式

大语言模型的优化方法、装置、电子设备及存储介质

站点导航

APP 下载