一种基于多模态知识自主学习的视觉问答系统和构建方法

正文

推荐专利

申请号：CN202510931800

申请日期：2025-07-07

公开号：CN120822608A

公开日期：2025-10-21

类型：发明专利

摘要

本发明公开了一种基于多模态知识自主学习的视觉问答系统和构建方法，属于人工智能技术领域。本发明提供了一种融合图像信息、自然语言问题与外部知识的视觉问答模型构建方法。通过引入自主演化机制，构建了知识动态筛选与替换策略，能够根据当前训练状态、知识相似度，判断知识是否插入或更新，从而克服了传统静态知识库无法适应任务变化的问题。本发明通过伪数据构造与多模态三元组抽取，建立结构化、高关联度的“图像‑问题‑答案”知识表示，使得知识具备更好的语义表达能力，有效减少冗余与噪声。本发明借助向量索引技术实现知识的快速检索与主动调用，在复杂场景下仍能获得关键支持信息，显著提升模型在基于知识的视觉问答任务中的表现。

技术关键词

问答系统多模态答案解码器框架融合视觉编码器三元组视觉问答模型演化机制实体语义文本融合图像信息策略动态双曲正切函数

一种基于多模态知识自主学习的视觉问答系统和构建方法

站点导航

APP 下载