基于时空增强的语言指定多目标视觉跟踪方法与系统

正文

推荐专利

申请号：CN202510821602

申请日期：2025-06-19

公开号：CN120807579A

公开日期：2025-10-17

类型：发明专利

摘要

本申请公开了基于时空增强的语言指定多目标视觉跟踪方法与系统。该方法包括：获取时频序列和对应的自然语言表达式；将视频帧输入到视觉骨干网络中，得到视觉特征，将自然语言表达式输入到语义骨干网络中，得到文本特征；将视觉特征和文本特征输入到早期融合模块中进行跨模态融合，得到跨模态特征；将跨模态特征输入到Transformer模块中进行编码和解码，得到初始目标检测框和查询特征；将初始目标检测框和查询特征输入到时空增强模块中进行优化，得到优化后的目标检测框。本申请能够有效提升对运动信息的感知能力，增强目标跟踪的准确性和鲁棒性。

技术关键词

查询特征视觉跟踪方法视觉特征跨模态文本自然语言解码器多头注意力机制交叉注意力机制表达式编码器特征视频帧模块时序网络语义多层感知机

基于时空增强的语言指定多目标视觉跟踪方法与系统

站点导航

APP 下载