摘要
本发明提出了基于动态平衡特征空间调整的视觉问答方法及系统,涉及人工智能与多模态机器学习技术领域,针对的问题是:现有技术存在语言先验问题,忽视视觉信息的充分利用,导致泛化能力下降,难以针对具体样本进行动态调整。该方法获取相关的视觉问答样本数据,通过图像‑文本联合特征提取器进行特征提取,通过多模态融合模块对提取的视觉图像特征和问题文本特征进行融合,并采用监督对比学习机制和加权融合,将融合特征分别输入至并行的动态平衡特征空间分支和稀有答案感知分支,分别得到对应的未归一化得分,进行加权融合和处理,得到最终问答结果。本发明解决现有技术存在的问题,提升了模型的鲁棒性与泛化能力,提高问答性能。
技术关键词
视觉问答方法
融合特征
联合特征提取
答案
样本
文本编码器
图像编码器
分支
分类器
多模态
动态更新
数据
机器学习技术
计算机装置
特征提取模块
问答系统
系统为您推荐了相关专利信息
时间序列预测模型
计算方法
水流
加权特征
注意力
内容审核方法
人工智能模型
样本
媒资系统
特征提取模型