摘要
本申请公开了一种多模态检索增强生成方法、设备及介质,属于数据处理的技术领域。方法包括连接多个文档数据库,并基于多个所述文档数据库构建特征向量知识库;获取用户提问;其中,所述用户提问包括输入问题和输入图像;基于预设的图像特征向量编码模型处理所述输入图像和特征向量知识库,以确定相关文档集;基于预设的语义模型处理所述用户输入问题和所述相关文档集,以确定目标文档;基于预设的多模态大模型处理所述用户提问、相关文档集和目标文档,以生成文档答案。本申请通过上述方法提高了视觉问答模态理解、泛化和跨模态融合能力。
技术关键词
图像特征向量
多模态
生成文档
生成方法
文本特征向量
语义
计算机可执行指令
图像块
编码
注意力机制
字词
视觉
计算机存储介质
生成答案
生成设备
处理器通信
习惯
系统为您推荐了相关专利信息
网络构建方法
生物标记数据
节点
淋巴
生物标记特征
外骨骼系统
辅助行走系统
传感器组件
在线学习机制
动态路径规划
语音数据生成方法
信号
梯度下降算法
MacOS系统
傅里叶变换算法