一种基于长文本训练大语言模型的方法及装置

正文

推荐专利

申请号：CN202411123941

申请日期：2024-08-15

公开号：CN119004107A

公开日期：2024-11-22

类型：发明专利

摘要

本说明书实施例提供了一种基于长文本训练大语言模型的方法，所述大语言模型包括预训练的目标解码器，该方法包括：对目标长文本进行文本分割，得到多个文本块。将各个文本块输入文本编码器进行编码，得到各文本块对应的编码表征。将各个编码表征输入映射网络进行处理，得到映射至目标解码器的嵌入空间的映射表征。将多个文本块的映射表征，以及第一提示文本对应的文本表征，输入目标解码器，得到第一答案文本，其中第一提示文本用于指示大语言模型，根据映射表征，重述目标长文本。根据第一答案文本与目标长文本，确定第一损失。根据预测损失，更新文本编码器和所述映射网络，其中预测损失包含第一损失。

技术关键词

大语言模型文本编码器解码器答案自然语言文本网络计算机程序产品编码模块处理器存储器指令资料标签

一种基于长文本训练大语言模型的方法及装置

站点导航

APP 下载