摘要
本发明公开了一种基于视觉‑语言模型知识蒸馏的水下目标检测方法。随着视觉‑语言大模型的不断成熟,其强大的视觉特征提取能力和文本对齐能力已广泛应用于深度学习领域。该方法首先收集并融合多个公开的水下数据集,并对数据进行清理和预处理,以构建一个丰富且高质量的训练数据集。其次引入视觉‑语言模型,在大模型微调阶段,通过图像和文本对齐进行特征提取和细粒度微调,有效捕捉图像与文本之间的关联,从而生成更为准确的特征表示。最后,在知识蒸馏阶段,该方法采用教师网络和学生网络进行特征迁移。教师网络从微调后的主干网络中获取精细特征,通过均方误差损失函数将这些知识传递给学生网络,从而提升学生网络的泛化能力和检测性能,最终实现水下目标的鲁棒检测。本发明充分利用视觉‑语言模型和知识蒸馏技术,增强水下目标特征,使模型能够学习到鲁棒的目标特征,提高检测的鲁棒性。
技术关键词
教师
学生
数据
标签标准化
生成图像特征
知识蒸馏技术
视觉特征提取
检测网络模型
格式
特征提取能力
更新模型参数
去重算法
文本编码器
系统为您推荐了相关专利信息
融合特征
多源监测数据
变化趋势预测
无人机影像数据
自然资源
经济预测模型
智能分析方法
经济运行分析
时效性
数据
卷积长短期记忆
存储管理单元
数字孪生
卷积网络模型
多任务损失函数
固件更新方法
自动化工业技术
串口通信工具
硬件状态监控
固件更新程序