摘要
本发明公开了一种文本引导的参数高效微调图像分割与计数模型及计数方法,所述模型包括预训练的视觉语言大模型CLIP、最大连通区域和非极大值抑制模块以及预训练的分割模型SAM,其中:所述预训练的视觉语言大模型CLIP包括预训练的CLIP图像编码器以及标准文本编码器;所述预训练的分割模型SAM包括SAM编码器、提示编码器和掩码解码器,所述预训练的分割模型SAM还集成了轻量级适配器和CLIP特征融合与掩码生成模块,所述轻量级适配器用于调整SAM编码器,所述CLIP特征融合与掩码生成模块用于将CLIP图像编码器生成的图像特征FC迁移与融合至掩码解码器中,并指导掩码解码器生成高质量的分割掩码。本发明的模型具有强大的泛化性能和较高的计数准确性。
技术关键词
图像分割
图像编码器
文本编码器
计数方法
适配器
冗余特征
融合图像特征
解码器
注意力
微调方法
模块
令牌
生成图像特征
视觉
参数
多层感知机
对象
系统为您推荐了相关专利信息
自动化检测方法
钟表
静态误差
图像分割技术
指数
视觉词汇表
图像编码器
身份验证机制
积层
服务器
自动规划系统
电力无人机
智能识别模块
机器学习分类模型
数据传输模块