一种基于文本提示更新的视觉-语言目标跟踪方法

AITNT
正文
推荐专利
一种基于文本提示更新的视觉-语言目标跟踪方法
申请号:CN202410800855
申请日期:2024-06-20
公开号:CN118710932B
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及一种基于文本提示更新的视觉‑语言目标跟踪方法。所述方法将一对来自视频流中的视觉图像和文字描述作为输入,通过构建特征提取网络和语言表征模型提取各个模态的特征,在此基础上构建两种不同架构的深度学习网络对视觉图像特征和语言文本特征进行融合,以充分挖掘多模态数据的可用信息。最后,每个候选目标映射的特征被送入预测头以获得预测分数,并将预测分数高的结果作为跟踪结果,并利用相似度决策模块判断是否对文本提示进行更新。本发明充分利用多模态信息提高跟踪算法的鲁棒性并充分考虑了文本信息的动态性。
技术关键词
文本 跟踪方法 视觉 注意力 支路 解码器 深度学习网络 编码器模块 解码模块 轻量级神经网络 生成图像特征 网络模块 图文 融合特征 多模态信息 特征提取网络 图像编码器
系统为您推荐了相关专利信息
1
交叉口复杂环境下多源感知融合及目标信息优化方法
信息优化方法 交叉口 摄像机 深度强化学习 摄像模组
2
一种手持式视觉增强探测装置
激光发射器 探测装置 控制电路 焦距调节 镜头
3
一种基于多粒度特征融合的工业产品缺陷检测方法
工业产品缺陷检测方法 多粒度特征 加权特征 注意力 生成重构图像
4
一种任务感知自适应原型进化网络的小样本语义分割方法
原型 语义分割方法 融合特征 分支 交互特征
5
一种应用于装配式消防水池的森林火灾实时智能监测方法
消防水池 智能监测方法 多头注意力机制 无线射频技术 图像传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号