摘要
本发明涉及一种基于文本提示更新的视觉‑语言目标跟踪方法。所述方法将一对来自视频流中的视觉图像和文字描述作为输入,通过构建特征提取网络和语言表征模型提取各个模态的特征,在此基础上构建两种不同架构的深度学习网络对视觉图像特征和语言文本特征进行融合,以充分挖掘多模态数据的可用信息。最后,每个候选目标映射的特征被送入预测头以获得预测分数,并将预测分数高的结果作为跟踪结果,并利用相似度决策模块判断是否对文本提示进行更新。本发明充分利用多模态信息提高跟踪算法的鲁棒性并充分考虑了文本信息的动态性。
技术关键词
文本
跟踪方法
视觉
注意力
支路
解码器
深度学习网络
编码器模块
解码模块
轻量级神经网络
生成图像特征
网络模块
图文
融合特征
多模态信息
特征提取网络
图像编码器
系统为您推荐了相关专利信息
信息优化方法
交叉口
摄像机
深度强化学习
摄像模组
工业产品缺陷检测方法
多粒度特征
加权特征
注意力
生成重构图像
消防水池
智能监测方法
多头注意力机制
无线射频技术
图像传感器