基于时空增强的语言指定多目标视觉跟踪方法与系统

AITNT
正文
推荐专利
基于时空增强的语言指定多目标视觉跟踪方法与系统
申请号:CN202510821602
申请日期:2025-06-19
公开号:CN120807579A
公开日期:2025-10-17
类型:发明专利
摘要
本申请公开了基于时空增强的语言指定多目标视觉跟踪方法与系统。该方法包括:获取时频序列和对应的自然语言表达式;将视频帧输入到视觉骨干网络中,得到视觉特征,将自然语言表达式输入到语义骨干网络中,得到文本特征;将视觉特征和文本特征输入到早期融合模块中进行跨模态融合,得到跨模态特征;将跨模态特征输入到Transformer模块中进行编码和解码,得到初始目标检测框和查询特征;将初始目标检测框和查询特征输入到时空增强模块中进行优化,得到优化后的目标检测框。本申请能够有效提升对运动信息的感知能力,增强目标跟踪的准确性和鲁棒性。
技术关键词
查询特征 视觉跟踪方法 视觉特征 跨模态 文本 自然语言 解码器 多头注意力机制 交叉注意力机制 表达式 编码器特征 视频帧 模块 时序 网络 语义 多层感知机
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号