摘要
本发明公开了一种基于视觉‑语言多模态感知的电力设备目标跟踪方法,属于电力设备目标跟踪技术领域,首先,构建了一种语言引导的目标感知多模态外观建模模型,引入语言和视觉信息共同进行目标表征,利用稳定的语言特征选择更有效的视觉特征,结合自注意机制对两种多模态信息进行深度对齐和增强,提高目标模型的适应性。其次,为了更好的分类和回归,提出了一种视觉‑语言多模态联合感知模块,该模块利用稳定的语言特征和语言感知过的有效视觉特征,通过自注意力强相似先验计算,提前去除搜索区域内的非目标标记,提高了跟踪速度和准确性。
技术关键词
电力设备
模板特征
跟踪方法
视觉特征
注意力
多模态信息
交互模型
代表
分支
多模态特征
网络中心
偏差
特征选择
尺寸
编码模块
关系
系统为您推荐了相关专利信息
知识图谱生成方法
推理机制
生成知识图谱
实体间关系
数据
强化学习方法
强化学习网络
强化学习框架
动态
注意力
语义特征
智能播报方法
语义结构
跨模态融合特征
时间卷积网络
建筑骨架
高精度异形
监测方法
模型库
多尺度特征