摘要
本发明提供了一种基于知识检索增强的视觉问答方法,涉及计算机视觉和自然语言处理领域,通过使用多模态编码器分别编码多模态查询和知识文本;使用向量点积计算多模态查询与知识文本的特征向量之间的相似度,检索得到多个相关的外部知识;使用轻量级的视觉Transformer模块,从冻结的图像编码器中提取最有用的视觉表征;使用T5的编码器对多个知识段落与图像、问题的联合输入进行独立编码;从取前N个最具代表性的标志串联,输入到T5解码器中进行联合解码,最终生成正确答案。本发明克服了现有方法中的视觉信息丢失和知识利用不足的问题,显著提升了系统在知识密集型视觉问答任务中的表现。
技术关键词
视觉问答方法
图像编码器
多模态
答案
文本段落
视觉特征提取
无缝嵌入
解码器结构
文本编码器
模块
问答系统
计算机视觉
系统为您推荐了相关专利信息
状态评估方法
故障检测
图谱
多模态
直流输电线路
多模态深度学习
图像采集单元
摄像头坐标系
三维姿态信息
微调机械
暖通空调系统
大语言模型
故障检测诊断
故障类别
数据