基于推理路径提示的多跳视觉问答方法

正文

推荐专利

基于推理路径提示的多跳视觉问答方法

申请号：CN202411571767

申请日期：2024-11-06

公开号：CN119312934A

公开日期：2025-01-14

类型：发明专利

摘要

多模态多跳问答需要跨越多个证据片段(文本和图像)进行推理。然而，大多数现有的方法常常依赖于推理捷径，例如通过问题与单个词语匹配来定位答案，这不仅降低了这些方法的性能，还削弱了它们的可信度。为了解决这个问题，本发明提出了一种基于提示的推理框架，旨在识别问题中的中间未知跳来生成相应的推理路径，用于多模态多跳问答。具体来说，本发明引入了一个中间未知检测和对齐模块，用于识别问题中的中间未知跳，并将其与图像/字幕中的对象/文本对齐，然后将识别出的未知跳跃和相应的答案转化为提示句子，即中间推理路径，最后将提示句与证据连接起来，以引导现有的多模态问答模型预测最终答案。在MuMuQA数据集上的实验表明了本发明是有效的。

技术关键词

实体视觉问答方法问答模型文本编码器图像编码器多模态对象多头注意力机制答案对齐模块图文匹配模块矩阵字幕词语数据

系统为您推荐了相关专利信息

播放文件的方法、装置、设备、存储介质及程序产品

大语言模型序列虚拟输入设备音频麦克风

一种使用文本提示的半监督医学影像分割方法

医学影像分割方法标记多模式特征文本编码器正则化策略

一种基于人工智能的白名单同步更新系统

白名单同步更新系统脱敏数据区块链决策人工智能技术

基于领域知识图谱的问答交互方法及系统

问答交互方法实体知识图谱框架查询策略关键词

一种基于NLP的电力需求预测与知识检索方法及设备

电力需求预测知识检索方法语句门控神经网络模型库

基于推理路径提示的多跳视觉问答方法

站点导航

APP 下载