一种基于记忆增强的大语言模型检索微调方法

正文

推荐专利

申请号：CN202411576622

申请日期：2024-11-06

公开号：CN119493854A

公开日期：2025-02-21

类型：发明专利

摘要

本发明公开了一种基于记忆增强的大语言模型检索微调方法，该方法包括：对文本序列库中的文本序列进行逐层稠密向量表示；逐层对齐性分析得到每层对齐性损失值；逐层均匀性分析得到每层均匀性损失值；根据每层对齐性损失值和每层均匀性损失值得到最优对齐层和最优均匀层；将最优对齐层和最优均匀层输入至检索微调模块得到最终输出向量；将最终输出向量带入交叉熵训练损失函数中，通过最小化交叉熵训练损失函数的值，得到检索微调模块的模型参数。本发明实现了在不微调大语言模型内部参数并且保留其原始生成能力的同时进行有效的文本检索，完成了文本检索和文本生成的模型兼容，为构建大语言模型的长期记忆模块提供了技术基础。

技术关键词

序列文本微调方法微调系统记忆模块大语言模型均匀层参数定义基础

一种基于记忆增强的大语言模型检索微调方法

站点导航

APP 下载