一种基于文本提示更新的视觉-语言目标跟踪方法

正文

推荐专利

申请号：CN202410800855

申请日期：2024-06-20

公开号：CN118710932B

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及一种基于文本提示更新的视觉‑语言目标跟踪方法。所述方法将一对来自视频流中的视觉图像和文字描述作为输入，通过构建特征提取网络和语言表征模型提取各个模态的特征，在此基础上构建两种不同架构的深度学习网络对视觉图像特征和语言文本特征进行融合，以充分挖掘多模态数据的可用信息。最后，每个候选目标映射的特征被送入预测头以获得预测分数，并将预测分数高的结果作为跟踪结果，并利用相似度决策模块判断是否对文本提示进行更新。本发明充分利用多模态信息提高跟踪算法的鲁棒性并充分考虑了文本信息的动态性。

技术关键词

文本跟踪方法视觉注意力支路解码器深度学习网络编码器模块解码模块轻量级神经网络生成图像特征网络模块图文融合特征多模态信息特征提取网络图像编码器

系统为您推荐了相关专利信息

交叉口复杂环境下多源感知融合及目标信息优化方法

信息优化方法交叉口摄像机深度强化学习摄像模组

一种手持式视觉增强探测装置

激光发射器探测装置控制电路焦距调节镜头

一种基于多粒度特征融合的工业产品缺陷检测方法

工业产品缺陷检测方法多粒度特征加权特征注意力生成重构图像

一种任务感知自适应原型进化网络的小样本语义分割方法

原型语义分割方法融合特征分支交互特征

一种应用于装配式消防水池的森林火灾实时智能监测方法

消防水池智能监测方法多头注意力机制无线射频技术图像传感器

一种基于文本提示更新的视觉-语言目标跟踪方法

站点导航

APP 下载