摘要
本发明属于计算机视觉、视觉‑语言匹配检测、多模态目标跟踪领域,公开了一种自适应视觉‑语言匹配检测与跟踪方法。首先利用预训练多模态大模型的模态对齐与表征优势,构建视觉‑语言多模态跟踪大模型;并提出视觉上下文感知提示学习算法,从当前搜索特征中提取视觉上下文特征,采用提示学习将其融入文本编码过程,实现文本特征对视觉变化的动态感知;此外,设计语言自适应隐式更新机制,通过在文本编码过程中嵌入可学习向量,并结合动态的视觉上下文线索,实现在跟踪过程中对文本特征的隐式更新,使静态语言能够动态匹配视觉外观,从而提升视觉‑语言检测跟踪性能。
技术关键词
文本编码器
搜索特征
图像编码器
上下文特征
多模态
模板特征
跟踪方法
提示器
分支
分词
模块
参数
计算机视觉
注意力
学习算法
系统为您推荐了相关专利信息
弹片连接器
分拣方法
系统运行状态
支持向量机算法
轮廓参数
锂离子电池热失控
频域特征
时域特征
预警方法
多模态
智能分诊方法
患者病情信息
胸痛
图谱
强化学习算法
自主路径规划方法
疏浚船
反射光谱数据
三维地形数据
数字孪生
人工智能辅助
多模态医学影像
成像方法
强化学习模型
图像分割识别