摘要
本发明提出了一种基于双模态提示学习的接地视觉问答方法及系统,引入视觉提示和文本提示,将视觉和文本信息集成到模型的编码过程中,提高对复杂场景的理解和定位能力,采用多重迭代融合策略进行综合答案推理,确保高质量生成文本答案和接地答案。方法步骤为:将问题和相关图片输入至预训练模型CAT‑ViL中得到视觉知识提示和文本知识提示,同时提取图片特征,并对文本进行向量化处理;通过分层迭代融合的方式,用提示信息引导包括视觉和文本的多模态信息的推理;通过堆叠迭代注意力特征融合模块将推理得到的精细视觉和文本信息数据进行融合;将融合的数据与推理后的视觉和文本提示功能一起解码;专用分类头和目标检测头生成最终文本答案和接地答案。
技术关键词
视觉问答方法
文本
双模态
专用分类
答案
子模块
注意力
图片
问答系统
嵌入特征
融合策略
检测头
预训练模型
图像嵌入
特征提取模块
解码
对齐模块
编码
系统为您推荐了相关专利信息
知识蒸馏技术
模型压缩
样本
资源受限环境
命名实体识别
天气预报服务
文本
大语言模型
生成方法
评估算法