摘要
本发明涉及多模态模型推理技术领域,特别涉及一种神经逻辑推理辅助的视觉语言可解释学习方法及系统。方法包括:对图像‑文本对进行向量表示;对一阶逻辑进行关系矩阵表示;基于一阶逻辑和图像‑文本对的表示,进行逻辑组合和多跳推理;基于逻辑组合和多跳推理,构建与视觉语言模型相融合的逻辑推理可微注意力网络。本发明通过设计了LogicVLM模型,能够将神经归纳学习与逻辑推理相结合的可微框架。进而可以从输入中的视觉文本语义概念学习一阶逻辑和逻辑组合,构建出树状结构的路径执行多跳推理,完成复杂的视觉语言推理任务。在实验中,与传统视觉语言模型相比,本发明的模型训练和推理速度基本保持不变,并在各项任务上取得了显著的提升。
技术关键词
逻辑
学习方法
视觉
文本
注意力
图像
学习系统
树状结构
计算机可读指令
学习设备
语句
矩阵
推理技术
关系
网络
实体
堆叠结构
模块
处理器
可读存储介质