基于自然语言描述和协同全局-局部视角学习的目标追踪方法

正文

推荐专利

申请号：CN202411605976

申请日期：2024-11-12

公开号：CN119559548B

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种基于自然语言描述和协同全局‑局部视角学习的目标追踪方法，所述方法包括如下步骤：步骤1、输入视频帧的特征提取与初步处理；步骤2、全局和局部分支视觉特征的提取；步骤3、多模态特征对齐实现信息互补和一致性表达；步骤4、对称注意力操作选择重要信息；步骤5、通过预测模块估计目标的位置；步骤6、追踪模型优化。本发明通过全局与局部特征的协同建模、多模态对齐机制以及对称注意力的特征增强，显著提升了目标追踪的精度和鲁棒性，解决了现有技术中全局与局部信息融合不充分、视觉与语言特征对齐能力不足的问题。本发明能够在复杂场景和自然语言描述的条件下精准定位目标，并在多个具有自然语言标注的目标追踪数据集上展现了卓越的性能。

技术关键词

自然语言追踪方法视觉特征交叉注意力机制前馈神经网络多模态特征分支深度特征提取视角多模态信息文本编码器阶段缩放参数分区语义广义模块

系统为您推荐了相关专利信息

一种基于大语言模型的多模态驱动的人体动作生成方法

动作生成方法大语言模型文本人体动作数据多模态

基于物联网技术的网络设备信息自动获取系统及方法

分布式账本信息自动获取方法传输路径策略物联网技术

动态生理指标填补方法、装置及系统和存储介质

填补方法生理指标前馈神经网络动态

一种基于大语言模型的ICD编码预测方法及装置

编码预测方法大语言模型机器可读程序树状结构疾病

一种基于扩散模型快速优化的个性化图像生成方法及系统

文本特征向量图像生成方法图像编码指令多模态

基于自然语言描述和协同全局-局部视角学习的目标追踪方法

站点导航

APP 下载