摘要
本发明公开了一种基于多模态文档的检索增强生成方法,该方法包括如下步骤:S1、数据构造;S2、多模态知识检索器的特征抽取;S3、多模态知识检索器的特征映射;S4、多模态知识检索器的相关度计算;S5、多模态答案生成:大语言模型根据多模态输入产生文本回复。本发明使用图片和文本组合的多模态文档作为知识载体,设计了一种多模态检索增强生成的方案。相比现有的端到端模型方案,本方案基于检索增强生成框架,保证了答案的准确性和可解释性;相比于使用文本文档作为知识载体的检索增强生成方案,本方案为文档增加了视觉信息以构建多模态文档,并且改进了知识检索器和答案生成器以利用多模态文档,进而提高了知识密集型视觉问答任务的准确性。
技术关键词
图片
生成方法
答案
大语言模型
多模态特征
文本编码器
图像编码器
生成框架
多层感知机
序列
实体
矩阵
视觉
策略
载体
数据
线性
系统为您推荐了相关专利信息
密钥生成系统
SIM卡
物联网平台
通信模组
终端设备
语音识别文本
多模态信息融合
图像特征识别算法
视频
关键帧提取算法
故障预测模型
全局特征融合
多模态特征
长短期记忆网络
电力设备故障
电池故障诊断
大语言模型
新能源汽车电池
实时数据
电池单体