摘要
本发明公开了一种基于掩码对比学习预训练的视觉目标跟踪方法,属于计算机视觉与目标跟踪领域,为了解决提高跟踪任务预训练适应性的问题,技术要点是获得模板目标和当前的查询视频帧的输入图像并划分为固定尺寸的图块,图块展平为图块向量并输入tokens传递给ViT模型;ViT模型根据当前图块向量与所有其他图块向量的上下文信息,捕获查询目标和模板目标的全局关系,通过嵌入层将每个图块向量投影到更高维度的特征空间;ViT模型的前馈神经网络对每个图块向量的特征进行局部转换和表示并对全局特征与局部特征融合并输入目标检测器中;目标检测器对融合特征进行回归及预测,效果是能够利用跟踪任务本身的视频数据,进行高效的预训练。
技术关键词
跟踪方法
前馈神经网络
融合特征
样本
视角
检测器
模板
注意力
编码器
图像
视频帧
计算机视觉
分支
优化器
周期
索引
数据
代表
系统为您推荐了相关专利信息
血糖预测模型
血糖预测方法
滑动时间窗口
预测血糖浓度
批量
智能估值系统
模型训练模块
人工智能算法
XGBoost算法
账号资产
变压器绝缘缺陷
电信号
融合特征
诊断方法
变压器技术
样本
残差模块
深度卷积神经网络
感知损失函数
编码器模块