基于推理路径提示的多跳视觉问答方法

AITNT
正文
推荐专利
基于推理路径提示的多跳视觉问答方法
申请号:CN202411571767
申请日期:2024-11-06
公开号:CN119312934A
公开日期:2025-01-14
类型:发明专利
摘要
多模态多跳问答需要跨越多个证据片段(文本和图像)进行推理。然而,大多数现有的方法常常依赖于推理捷径,例如通过问题与单个词语匹配来定位答案,这不仅降低了这些方法的性能,还削弱了它们的可信度。为了解决这个问题,本发明提出了一种基于提示的推理框架,旨在识别问题中的中间未知跳来生成相应的推理路径,用于多模态多跳问答。具体来说,本发明引入了一个中间未知检测和对齐模块,用于识别问题中的中间未知跳,并将其与图像/字幕中的对象/文本对齐,然后将识别出的未知跳跃和相应的答案转化为提示句子,即中间推理路径,最后将提示句与证据连接起来,以引导现有的多模态问答模型预测最终答案。在MuMuQA数据集上的实验表明了本发明是有效的。
技术关键词
实体 视觉问答方法 问答模型 文本编码器 图像编码器 多模态 对象 多头注意力机制 答案 对齐模块 图文 匹配模块 矩阵 字幕 词语 数据
系统为您推荐了相关专利信息
1
播放文件的方法、装置、设备、存储介质及程序产品
大语言模型 序列 虚拟输入设备 音频 麦克风
2
一种使用文本提示的半监督医学影像分割方法
医学影像分割方法 标记 多模式特征 文本编码器 正则化策略
3
一种基于人工智能的白名单同步更新系统
白名单 同步更新系统 脱敏数据 区块链决策 人工智能技术
4
基于领域知识图谱的问答交互方法及系统
问答交互方法 实体 知识图谱框架 查询策略 关键词
5
一种基于NLP的电力需求预测与知识检索方法及设备
电力需求预测 知识检索方法 语句 门控神经网络 模型库
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号