一种基于多模态文档的检索增强生成方法

正文

推荐专利

一种基于多模态文档的检索增强生成方法

申请号：CN202411867298

申请日期：2024-12-18

公开号：CN119988542B

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种基于多模态文档的检索增强生成方法，该方法包括如下步骤：S1、数据构造；S2、多模态知识检索器的特征抽取；S3、多模态知识检索器的特征映射；S4、多模态知识检索器的相关度计算；S5、多模态答案生成：大语言模型根据多模态输入产生文本回复。本发明使用图片和文本组合的多模态文档作为知识载体，设计了一种多模态检索增强生成的方案。相比现有的端到端模型方案，本方案基于检索增强生成框架，保证了答案的准确性和可解释性；相比于使用文本文档作为知识载体的检索增强生成方案，本方案为文档增加了视觉信息以构建多模态文档，并且改进了知识检索器和答案生成器以利用多模态文档，进而提高了知识密集型视觉问答任务的准确性。

技术关键词

图片生成方法答案大语言模型多模态特征文本编码器图像编码器生成框架多层感知机序列实体矩阵视觉策略载体数据线性

系统为您推荐了相关专利信息

支持国密SM9算法的超级SIM卡密钥生成系统及方法

密钥生成系统 SIM卡物联网平台通信模组终端设备

基于多模态信息融合的视频处理方法、装置、设备及介质

语音识别文本多模态信息融合图像特征识别算法视频关键帧提取算法

虚假宣传检测模型的训练方法、虚假宣传检测方法和相关设备

大语言模型文本数据获取模块训练装置标签

基于多模态数据的电力设备故障预测方法及相关设备

故障预测模型全局特征融合多模态特征长短期记忆网络电力设备故障

一种基于语义化的电池故障诊断大语言模型算法及电池交互管理平台

电池故障诊断大语言模型新能源汽车电池实时数据电池单体

一种基于多模态文档的检索增强生成方法

站点导航

APP 下载