摘要
本申请公开了基于时空增强的语言指定多目标视觉跟踪方法与系统。该方法包括:获取时频序列和对应的自然语言表达式;将视频帧输入到视觉骨干网络中,得到视觉特征,将自然语言表达式输入到语义骨干网络中,得到文本特征;将视觉特征和文本特征输入到早期融合模块中进行跨模态融合,得到跨模态特征;将跨模态特征输入到Transformer模块中进行编码和解码,得到初始目标检测框和查询特征;将初始目标检测框和查询特征输入到时空增强模块中进行优化,得到优化后的目标检测框。本申请能够有效提升对运动信息的感知能力,增强目标跟踪的准确性和鲁棒性。
技术关键词
查询特征
视觉跟踪方法
视觉特征
跨模态
文本
自然语言
解码器
多头注意力机制
交叉注意力机制
表达式
编码器特征
视频帧
模块
时序
网络
语义
多层感知机