摘要
本发明涉及一种基于多模态信息增强与交互的外部知识视觉问答方法。所述方法包括:提取原始图像中带有语义信息的视觉特征;处理原始问题得到问题文本嵌入,通过LXMERT模型提取各个特征;基于张量Tucker融合方法计算相似度矩阵,得到自回归提示;基于单模型文本问答模块得到单模态提示;将自回归提示与单模态提示与原始问题建立连接,再次计算得到最终答案。使用原始问题生成自回归提示并利用基于图像描述和原始问题生成单模态提示,提高问题文本信息丰富度;采用基于张量Tucker融合方法进行特征交互,捕获目标与问题之间相关性;将自回归提示与单模态提示与原始问题建立连接,利用递归的答案生成范式加强两个阶段的一致性,使得生成的最终答案准确率较高。
技术关键词
视觉问答方法
多模态信息
视觉特征
标签文本
融合方法
答案
多模态特征
图像块
矩阵
语义
分词
实体
检测器
序列
关系
三元组
系统为您推荐了相关专利信息
玻璃罐
特征提取模块
预警系统
压力
多尺度特征提取
融合方法
多源异构数据
清洗算法
HBase数据库
机器学习分类算法
报告生成方法
水力发电
数据采集平台
传感器实时监控
视频图像特征
地理时空数据
空间分析算法
BP神经网络
分布式计算框架
融合方法