摘要
本发明公开了一种基于多模态知识自主学习的视觉问答系统和构建方法,属于人工智能技术领域。本发明提供了一种融合图像信息、自然语言问题与外部知识的视觉问答模型构建方法。通过引入自主演化机制,构建了知识动态筛选与替换策略,能够根据当前训练状态、知识相似度,判断知识是否插入或更新,从而克服了传统静态知识库无法适应任务变化的问题。本发明通过伪数据构造与多模态三元组抽取,建立结构化、高关联度的“图像‑问题‑答案”知识表示,使得知识具备更好的语义表达能力,有效减少冗余与噪声。本发明借助向量索引技术实现知识的快速检索与主动调用,在复杂场景下仍能获得关键支持信息,显著提升模型在基于知识的视觉问答任务中的表现。
技术关键词
问答系统
多模态
答案
解码器框架
融合视觉
编码器
三元组
视觉问答模型
演化机制
实体
语义
文本
融合图像信息
策略
动态
双曲正切函数