摘要
多模态多跳问答需要跨越多个证据片段(文本和图像)进行推理。然而,大多数现有的方法常常依赖于推理捷径,例如通过问题与单个词语匹配来定位答案,这不仅降低了这些方法的性能,还削弱了它们的可信度。为了解决这个问题,本发明提出了一种基于提示的推理框架,旨在识别问题中的中间未知跳来生成相应的推理路径,用于多模态多跳问答。具体来说,本发明引入了一个中间未知检测和对齐模块,用于识别问题中的中间未知跳,并将其与图像/字幕中的对象/文本对齐,然后将识别出的未知跳跃和相应的答案转化为提示句子,即中间推理路径,最后将提示句与证据连接起来,以引导现有的多模态问答模型预测最终答案。在MuMuQA数据集上的实验表明了本发明是有效的。
技术关键词
实体
视觉问答方法
问答模型
文本编码器
图像编码器
多模态
对象
多头注意力机制
答案
对齐模块
图文
匹配模块
矩阵
字幕
词语
数据
系统为您推荐了相关专利信息
医学影像分割方法
标记
多模式特征
文本编码器
正则化策略
白名单
同步更新系统
脱敏数据
区块链决策
人工智能技术
问答交互方法
实体
知识图谱框架
查询策略
关键词
电力需求预测
知识检索方法
语句
门控神经网络
模型库