摘要
本发明提供一种自适应指代表达理解方法、系统及存储介质,通过文本编码器提取得到文本特征后,在视觉编码器中通过门控机制将文本特征与视觉编码器中不同网络层提取得到的视觉特征进行整合以得到多模态特征嵌入,基于此多模态特征嵌入更新视觉编码器中网络层的参数,从而对视觉特征进行更新,得到最终视觉特征;最后基于文本特征与最终视觉特征,通过多模态解码器和前向神经网络进行聚合并预测,在图像中定位文本描述的目标位置。本发明通过引导参数更新的方式,使得视觉编码器可以基于文本信息关注到文本所指代区域,提升视觉编码器在指代表达理解任务上的性能,大大提升了指代表达理解任务的结果准确度。
技术关键词
多模态特征
视觉特征提取
矩阵
图像
文本编码器
交叉注意力机制
代表
解码器
参数
特征提取模块
线性
坐标
定位模块
理解系统
融合视觉
系统为您推荐了相关专利信息
测试用例管理
辅助系统
项目管理服务器
自动化测试脚本
AI服务器