一种基于视觉-语言模型知识蒸馏的水下目标检测方法

正文

推荐专利

申请号：CN202411570471

申请日期：2024-11-06

公开号：CN119445353A

公开日期：2025-02-14

类型：发明专利

摘要

本发明公开了一种基于视觉‑语言模型知识蒸馏的水下目标检测方法。随着视觉‑语言大模型的不断成熟，其强大的视觉特征提取能力和文本对齐能力已广泛应用于深度学习领域。该方法首先收集并融合多个公开的水下数据集，并对数据进行清理和预处理，以构建一个丰富且高质量的训练数据集。其次引入视觉‑语言模型，在大模型微调阶段，通过图像和文本对齐进行特征提取和细粒度微调，有效捕捉图像与文本之间的关联，从而生成更为准确的特征表示。最后，在知识蒸馏阶段，该方法采用教师网络和学生网络进行特征迁移。教师网络从微调后的主干网络中获取精细特征，通过均方误差损失函数将这些知识传递给学生网络，从而提升学生网络的泛化能力和检测性能，最终实现水下目标的鲁棒检测。本发明充分利用视觉‑语言模型和知识蒸馏技术，增强水下目标特征，使模型能够学习到鲁棒的目标特征，提高检测的鲁棒性。

技术关键词

教师学生数据标签标准化生成图像特征知识蒸馏技术视觉特征提取检测网络模型格式特征提取能力更新模型参数去重算法文本编码器

系统为您推荐了相关专利信息

一种基于多源数据融合的自然资源动态监测方法及系统

融合特征多源监测数据变化趋势预测无人机影像数据自然资源

一种产业经济运行智能分析方法及系统

经济预测模型智能分析方法经济运行分析时效性数据

一种建筑墙体安全检测方法及系统

仿真模型裂纹识别墙面建筑墙体三维模型

一种建筑环境数字孪生监控系统

卷积长短期记忆存储管理单元数字孪生卷积网络模型多任务损失函数

一种保存更新状态防掉电程序无法运行的固件更新方法及其方法

固件更新方法自动化工业技术串口通信工具硬件状态监控固件更新程序

一种基于视觉-语言模型知识蒸馏的水下目标检测方法

站点导航

APP 下载