摘要
本发明公开了一种基于自然语言描述和协同全局‑局部视角学习的目标追踪方法,所述方法包括如下步骤:步骤1、输入视频帧的特征提取与初步处理;步骤2、全局和局部分支视觉特征的提取;步骤3、多模态特征对齐实现信息互补和一致性表达;步骤4、对称注意力操作选择重要信息;步骤5、通过预测模块估计目标的位置;步骤6、追踪模型优化。本发明通过全局与局部特征的协同建模、多模态对齐机制以及对称注意力的特征增强,显著提升了目标追踪的精度和鲁棒性,解决了现有技术中全局与局部信息融合不充分、视觉与语言特征对齐能力不足的问题。本发明能够在复杂场景和自然语言描述的条件下精准定位目标,并在多个具有自然语言标注的目标追踪数据集上展现了卓越的性能。
技术关键词
自然语言
追踪方法
视觉特征
交叉注意力机制
前馈神经网络
多模态特征
分支
深度特征提取
视角
多模态信息
文本编码器
阶段
缩放参数
分区
语义
广义
模块
系统为您推荐了相关专利信息
动作生成方法
大语言模型
文本
人体动作数据
多模态
分布式账本
信息自动获取方法
传输路径
策略
物联网技术
编码预测方法
大语言模型
机器可读程序
树状结构
疾病
文本特征向量
图像生成方法
图像编码
指令
多模态