摘要
本发明公开了基于自然语言与目标状态信息的视觉目标跟踪方法,包括以下步骤;步骤(1):构建训练样本集;步骤(2):构建基于自然语言与目标状态信息的视觉目标跟踪模型;步骤(3):调整图像‑文本编码器的参数并加载预训练权重,得到文本与第一模板融合后的特征、第二模板的特征和搜索图像的特征;步骤(4):将样本集中的目标的位置信息与目标的边界框信息融合到第二模板的特征之中;步骤(5):获取联合建模后的特征;步骤(6):获取查询后包含目标位置信息的token;步骤(7):获取预测的目标边界框回归结果;步骤(8):获取最终的跟踪结果。本发明有效提高了基于自然语言的视觉跟踪器的跟踪准确率。
技术关键词
自然语言
跟踪方法
模板特征
文本编码器
前馈神经网络
图像
视觉
注意力
训练样本集
搜索特征
解码
通道
线性
信息模块
系统为您推荐了相关专利信息
指标监测方法
敏感数据自动识别
自然语言分析技术
关系
异构多源数据
产量预测方法
特征选择算法
注意力机制
算法模型
数据
分流设备
校验模型
执行设备
轻量级架构
管理方法