一种神经逻辑推理辅助的视觉语言可解释学习方法及系统

正文

推荐专利

申请号：CN202510427320

申请日期：2025-04-07

公开号：CN120449963A

公开日期：2025-08-08

类型：发明专利

摘要

本发明涉及多模态模型推理技术领域，特别涉及一种神经逻辑推理辅助的视觉语言可解释学习方法及系统。方法包括：对图像‑文本对进行向量表示；对一阶逻辑进行关系矩阵表示；基于一阶逻辑和图像‑文本对的表示，进行逻辑组合和多跳推理；基于逻辑组合和多跳推理，构建与视觉语言模型相融合的逻辑推理可微注意力网络。本发明通过设计了LogicVLM模型，能够将神经归纳学习与逻辑推理相结合的可微框架。进而可以从输入中的视觉文本语义概念学习一阶逻辑和逻辑组合，构建出树状结构的路径执行多跳推理，完成复杂的视觉语言推理任务。在实验中，与传统视觉语言模型相比，本发明的模型训练和推理速度基本保持不变，并在各项任务上取得了显著的提升。

技术关键词

逻辑学习方法视觉文本注意力图像学习系统树状结构计算机可读指令学习设备语句矩阵推理技术关系网络实体堆叠结构模块处理器可读存储介质

一种神经逻辑推理辅助的视觉语言可解释学习方法及系统

站点导航

APP 下载