摘要
本发明提供一种基于多角度图像的多模态问答方法、装置、电子设备,包括:获取用户输入的原始图像和问题文本,并基于原始图像生成若干张多角度图像,多角度图像用于表征原始图像中的同一实体的不同角度;对多角度图像分别进行预处理,得到多角度图像分别对应的嵌入式向量;获取与每个嵌入式向量分别对应的可训练软提示,并基于嵌入式向量和可训练软提示进行多视角特征感知处理,得到多角度视觉特征表示;基于多角度视觉特征表示和问题文本进行预测处理,得到与问题文本对应的答案。通过充分利用不同图像所含的视觉信息,模型在生成答案时获取到的视觉信息更加丰富全面,从而缓解在多模态问答过程中存在的幻觉问题,使得模型生成答案的精度更高。
技术关键词
多角度
问答方法
视觉特征
交叉注意力机制
多视角特征
多头注意力机制
文本
生成答案
图像嵌入
非暂态计算机可读存储介质
预训练语言模型
电子设备
处理器
问答装置
变量
计算机程序产品
系统为您推荐了相关专利信息
病害检测方法
数据采集装置
图像采集区域
数据装置
外接电源适配器
云平台
测试接口
应用程序编程接口
适配器组件
界面
轮廓提取方法
建筑物
多边形
视觉特征
大语言模型