摘要
本发明涉及人工智能技术领域,公开了一种基于细粒度视觉‑语言模型的遥感语义分割推理加速方法,首先通过构建图像级、区域级的细粒度图文数据集,进行细粒度的图像‑文本对比学习,训练带有一个图像编码器和一个文本编码器的双塔视觉‑语言模型;将预训练得到的细粒度视觉‑语言模型权重迁移到二阶段推理加速框架中作为目标筛选器;通过细粒度视觉‑语言模型计算大尺寸遥感图像测试样本中一系列小图像块的图像特征与目标类别文本特征的相似度分数,并设置阈值筛选出存在目标类别的小图像块;将筛选后的图像块输入遥感语义分割模型中,得到最终的分割结果。该方法利用细粒度视觉‑语言模型定位大尺寸遥感图像的稀疏目标区域,高效筛选出足够多、正确的稀疏目标所在的区域,降低直接推理的时间成本从而提高推理效率。
技术关键词
文本编码器
图像编码器
视觉
语义分割模型
标签特征
筛选器
样本
图像块特征
大尺度遥感图像
大语言模型
遥感图像数据
大尺寸
阶段
框架
多模态
系统为您推荐了相关专利信息
掘锚一体机
一体化钻机
双目相机
智能型
感光元件
信号特征提取
状态评估方法
视频编码器
生理
深度学习模型
速度测量方法
实时视频流
水流
防水摄像机
特征提取模块