摘要
本申请提供了一种基于微调预训练大模型的多模态无人机图像目标检测方法,涉及计算机视觉技术领域,包括:获得无人机图像,进行预处理和标注后,得到无人机数据集;对Fast Segment Anything进行训练和验证,得到微调训练后的目标分割模型;构建目标网络模型,采用GroundingDINO和Fast Segment Anything作为预训练的大模型得到初始目标检测模型;S5、构建语音识别模型;S6、将语音识别模型添加到初始目标检测模型中,获得多模态全自动无人机图像目标检测模型。该方法实现了迁移学习,有效解决了现有技术中因无人机图像数据量少、复杂性高而导致的检测精度低和泛化性差的问题。
技术关键词
无人机数据
构建语音识别模型
电子转录设备
语音采集设备
计算机视觉技术
多模态
标注软件
图像匹配
网络
自然语言
检测头
音频
训练集
参数
文本
噪声
系统为您推荐了相关专利信息
猪排
猪舍
驱赶装置
畜牧业管理技术
分析实时监控
配筋方法
抓取机器人
深度相机
打印机器人
配筋装置