一种基于长文本训练大语言模型的方法及装置

AITNT
正文
推荐专利
一种基于长文本训练大语言模型的方法及装置
申请号:CN202411123941
申请日期:2024-08-15
公开号:CN119004107A
公开日期:2024-11-22
类型:发明专利
摘要
本说明书实施例提供了一种基于长文本训练大语言模型的方法,所述大语言模型包括预训练的目标解码器,该方法包括:对目标长文本进行文本分割,得到多个文本块。将各个文本块输入文本编码器进行编码,得到各文本块对应的编码表征。将各个编码表征输入映射网络进行处理,得到映射至目标解码器的嵌入空间的映射表征。将多个文本块的映射表征,以及第一提示文本对应的文本表征,输入目标解码器,得到第一答案文本,其中第一提示文本用于指示大语言模型,根据映射表征,重述目标长文本。根据第一答案文本与目标长文本,确定第一损失。根据预测损失,更新文本编码器和所述映射网络,其中预测损失包含第一损失。
技术关键词
大语言模型 文本编码器 解码器 答案 自然语言文本 网络 计算机程序产品 编码模块 处理器 存储器 指令 资料 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号