基于多角度图像的多模态问答方法、装置、电子设备

正文

推荐专利

申请号：CN202411550212

申请日期：2024-11-01

公开号：CN119739814B

公开日期：2025-11-14

类型：发明专利

摘要

本发明提供一种基于多角度图像的多模态问答方法、装置、电子设备，包括：获取用户输入的原始图像和问题文本，并基于原始图像生成若干张多角度图像，多角度图像用于表征原始图像中的同一实体的不同角度；对多角度图像分别进行预处理，得到多角度图像分别对应的嵌入式向量；获取与每个嵌入式向量分别对应的可训练软提示，并基于嵌入式向量和可训练软提示进行多视角特征感知处理，得到多角度视觉特征表示；基于多角度视觉特征表示和问题文本进行预测处理，得到与问题文本对应的答案。通过充分利用不同图像所含的视觉信息，模型在生成答案时获取到的视觉信息更加丰富全面，从而缓解在多模态问答过程中存在的幻觉问题，使得模型生成答案的精度更高。

技术关键词

多角度问答方法视觉特征交叉注意力机制多视角特征多头注意力机制文本生成答案图像嵌入非暂态计算机可读存储介质预训练语言模型电子设备处理器问答装置变量计算机程序产品

系统为您推荐了相关专利信息

鲫鱼离群通道的数据采集装置及其病害检测方法

病害检测方法数据采集装置图像采集区域数据装置外接电源适配器

一种基于大模型的交通问答方法

样本交通问答方法轨迹关键字

一种视频未来事件预测方法、装置、存储介质和程序产品

事件预测方法视频关键帧令牌视觉特征

一种测试方法及测试系统

云平台测试接口应用程序编程接口适配器组件界面

基于多模态大模型的建筑物矢量多边形轮廓提取方法

轮廓提取方法建筑物多边形视觉特征大语言模型

基于多角度图像的多模态问答方法、装置、电子设备

站点导航

APP 下载