基于细粒度视觉-语言模型的遥感语义分割推理加速方法

正文

推荐专利

申请号：CN202411677655

申请日期：2024-11-22

公开号：CN119445124A

公开日期：2025-02-14

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了一种基于细粒度视觉‑语言模型的遥感语义分割推理加速方法，首先通过构建图像级、区域级的细粒度图文数据集，进行细粒度的图像‑文本对比学习，训练带有一个图像编码器和一个文本编码器的双塔视觉‑语言模型；将预训练得到的细粒度视觉‑语言模型权重迁移到二阶段推理加速框架中作为目标筛选器；通过细粒度视觉‑语言模型计算大尺寸遥感图像测试样本中一系列小图像块的图像特征与目标类别文本特征的相似度分数，并设置阈值筛选出存在目标类别的小图像块；将筛选后的图像块输入遥感语义分割模型中，得到最终的分割结果。该方法利用细粒度视觉‑语言模型定位大尺寸遥感图像的稀疏目标区域，高效筛选出足够多、正确的稀疏目标所在的区域，降低直接推理的时间成本从而提高推理效率。

技术关键词

文本编码器图像编码器视觉语义分割模型标签特征筛选器样本图像块特征大尺度遥感图像大语言模型遥感图像数据大尺寸阶段框架多模态

系统为您推荐了相关专利信息

一种生物医学体表图像的三维重建方法和装置

样本相机外参体表特征参数编码器数据

一种智能型掘锚一体机及其控制方法

掘锚一体机一体化钻机双目相机智能型感光元件

一种基于信号融合的飞行员非接触生理状态评估方法

信号特征提取状态评估方法视频编码器生理深度学习模型

基于野外场景的水流速度测量方法及系统

速度测量方法实时视频流水流防水摄像机特征提取模块

一种人工智能可见光红外模态行人重识别方法

重识别方法可见光特征提取模块基础跨模态

基于细粒度视觉-语言模型的遥感语义分割推理加速方法

站点导航

APP 下载