摘要
本发明属于但不限于计算机视觉技术领域,公开了一种基于CLIP的相似性对齐蒸馏网络的弱监督目标定位方法,输入图像和文本数据至预训练的CLIP模型中进行处理;CLIP模型利用其深度学习能力从图像和文本中提取出高级视觉和语义特征,并生成自注意力图;图像特征传送到解码器中,解码器对特征进行细致的解析和微调,以更好地适应特定的定位需求;解码后的图像特征与文本特征共同用于计算相似度,生成前景预测图;类激活图和前景预测图在CGDM模块的引导下进一步优化,同时前景预测图经过EDFE模块的处理,该模块通过指数衰减技术强化前景并抑制背景,提高定位图的清晰度;之后类激活图和前景预测图二者结合,生成最终的定位图。
技术关键词
定位方法
衰减技术
解码器
训练深度学习模型
信息数据处理终端
图像
蒸馏
文本
语义特征
网络
注意力
指数
定位系统
特征提取能力
计算机视觉技术
数据输入模块
计算机设备
处理器