基于自然语言描述和协同全局-局部视角学习的目标追踪方法

AITNT
正文
推荐专利
基于自然语言描述和协同全局-局部视角学习的目标追踪方法
申请号:CN202411605976
申请日期:2024-11-12
公开号:CN119559548B
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开了一种基于自然语言描述和协同全局‑局部视角学习的目标追踪方法,所述方法包括如下步骤:步骤1、输入视频帧的特征提取与初步处理;步骤2、全局和局部分支视觉特征的提取;步骤3、多模态特征对齐实现信息互补和一致性表达;步骤4、对称注意力操作选择重要信息;步骤5、通过预测模块估计目标的位置;步骤6、追踪模型优化。本发明通过全局与局部特征的协同建模、多模态对齐机制以及对称注意力的特征增强,显著提升了目标追踪的精度和鲁棒性,解决了现有技术中全局与局部信息融合不充分、视觉与语言特征对齐能力不足的问题。本发明能够在复杂场景和自然语言描述的条件下精准定位目标,并在多个具有自然语言标注的目标追踪数据集上展现了卓越的性能。
技术关键词
自然语言 追踪方法 视觉特征 交叉注意力机制 前馈神经网络 多模态特征 分支 深度特征提取 视角 多模态信息 文本编码器 阶段 缩放参数 分区 语义 广义 模块
系统为您推荐了相关专利信息
1
一种基于大语言模型的多模态驱动的人体动作生成方法
动作生成方法 大语言模型 文本 人体动作数据 多模态
2
基于物联网技术的网络设备信息自动获取系统及方法
分布式账本 信息自动获取方法 传输路径 策略 物联网技术
3
动态生理指标填补方法、装置及系统和存储介质
填补方法 生理 指标 前馈神经网络 动态
4
一种基于大语言模型的ICD编码预测方法及装置
编码预测方法 大语言模型 机器可读程序 树状结构 疾病
5
一种基于扩散模型快速优化的个性化图像生成方法及系统
文本特征向量 图像生成方法 图像编码 指令 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号