基于检索增强的生成式语言模型的训练方法、对话生成方法及装置

正文

推荐专利

申请号：CN202510101063

申请日期：2025-01-22

公开号：CN120087475A

公开日期：2025-06-03

类型：发明专利

摘要

本发明公开了一种基于检索增强的生成式语言模型的训练方法、对话生成方法及装置，包括：对原始历史对话进行数据清洗，构建经过预训练的第一大语言模型和第二大语言模型，将清洗后的历史对话输入到第一大语言模型，生成对应的问题描述语句和回复语句；将问题描述语句和回复语句输入到第二大语言模型，生成对应的单条第一知识，再进行数据筛选，得到筛选后的数据；将数据库中检索到的n条第二知识与生成的单条第一知识构成每条高质量历史对话对应的n+1条知识，构建得到混合训练数据；利用混合训练数据训练生成式语言模型。本发明能够解决训练数据获取难度大，现有RAG系统回复不够准确等问题。

技术关键词

大语言模型语句对话生成方法 BERT模型模型训练模块多层感知机数据处理模块处理器样本训练装置存储装置可读存储介质程序电子设备计算机

系统为您推荐了相关专利信息

一种滑坡识别方法、系统、设备与介质

滑坡识别方法数字高程数据遥感影像数据图像数据分割输出特征

一种确定训练样本数据的方法、装置、设备及介质

训练样本数据序列分布式文件系统索引计算机可读指令

飞机发电机故障率预测方法、装置、设备及存储介质

发电机部件训练预测模型故障率预测方法飞机发电机故障率预测装置

大语言模型的置信度评估方法、装置、设备及存储介质

大语言模型置信度评估方法序列输入模块处理器

大语言模型提示文本的压缩方法、装置、设备及介质

大语言模型计算机可读指令答案序列文档生成模块

基于检索增强的生成式语言模型的训练方法、对话生成方法及装置

站点导航

APP 下载