基于多模态信息增强与交互的外部知识视觉问答方法

正文

推荐专利

申请号：CN202410801823

申请日期：2024-06-20

公开号：CN118690852B

公开日期：2025-04-18

类型：发明专利

摘要

本发明涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。所述方法包括：提取原始图像中带有语义信息的视觉特征；处理原始问题得到问题文本嵌入，通过LXMERT模型提取各个特征；基于张量Tucker融合方法计算相似度矩阵，得到自回归提示；基于单模型文本问答模块得到单模态提示；将自回归提示与单模态提示与原始问题建立连接，再次计算得到最终答案。使用原始问题生成自回归提示并利用基于图像描述和原始问题生成单模态提示，提高问题文本信息丰富度；采用基于张量Tucker融合方法进行特征交互，捕获目标与问题之间相关性；将自回归提示与单模态提示与原始问题建立连接，利用递归的答案生成范式加强两个阶段的一致性，使得生成的最终答案准确率较高。

技术关键词

视觉问答方法多模态信息视觉特征标签文本融合方法答案多模态特征图像块矩阵语义分词实体检测器序列关系三元组

系统为您推荐了相关专利信息

单目三维视觉定位方法、装置、设备及存储介质

耦合特征视觉特征三维视觉定位方法文本场景

基于物联网的玻璃生产预警系统及方法

玻璃罐特征提取模块预警系统压力多尺度特征提取

一种多源异构劳动监察维权投诉信息数据清洗融合方法

融合方法多源异构数据清洗算法 HBase数据库机器学习分类算法

一种水力发电企业生产安全事故报告生成方法

报告生成方法水力发电数据采集平台传感器实时监控视频图像特征

地理时空数据的融合方法、设备和介质

地理时空数据空间分析算法 BP神经网络分布式计算框架融合方法

基于多模态信息增强与交互的外部知识视觉问答方法

站点导航

APP 下载