摘要
一种基于视觉概念图谱的视觉问答方法,构建包含概念层次关系、视觉关系和视觉特征的视觉概念图谱,使用问题和图像分别定位视觉概念图谱的相关概念,使用三线性交互融合模块(CTI)融合输入图文对和由视觉概念图谱得到的局部图谱特征和视觉特征,经分类头和预设的答案列表获得视觉问答的答案,有效提升了视觉问答的性能。
技术关键词
视觉问答方法
概念
视觉特征
图谱特征
三元组
节点
关系
文本
答案
图像
图文
预训练模型
列表
生成技术
分词
标签
自然语言
线性
系统为您推荐了相关专利信息
图像识别方法
实时视频
电力设备
双目立体
特征金字塔网络
报告
人工智能医疗
大语言模型
影像
深度特征提取