基于细粒度视觉-语言模型的遥感语义分割推理加速方法

AITNT
正文
推荐专利
基于细粒度视觉-语言模型的遥感语义分割推理加速方法
申请号:CN202411677655
申请日期:2024-11-22
公开号:CN119445124A
公开日期:2025-02-14
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了一种基于细粒度视觉‑语言模型的遥感语义分割推理加速方法,首先通过构建图像级、区域级的细粒度图文数据集,进行细粒度的图像‑文本对比学习,训练带有一个图像编码器和一个文本编码器的双塔视觉‑语言模型;将预训练得到的细粒度视觉‑语言模型权重迁移到二阶段推理加速框架中作为目标筛选器;通过细粒度视觉‑语言模型计算大尺寸遥感图像测试样本中一系列小图像块的图像特征与目标类别文本特征的相似度分数,并设置阈值筛选出存在目标类别的小图像块;将筛选后的图像块输入遥感语义分割模型中,得到最终的分割结果。该方法利用细粒度视觉‑语言模型定位大尺寸遥感图像的稀疏目标区域,高效筛选出足够多、正确的稀疏目标所在的区域,降低直接推理的时间成本从而提高推理效率。
技术关键词
文本编码器 图像编码器 视觉 语义分割模型 标签特征 筛选器 样本 图像块特征 大尺度遥感图像 大语言模型 遥感图像数据 大尺寸 阶段 框架 多模态
系统为您推荐了相关专利信息
1
一种生物医学体表图像的三维重建方法和装置
样本 相机外参 体表特征 参数编码器 数据
2
一种智能型掘锚一体机及其控制方法
掘锚一体机 一体化钻机 双目相机 智能型 感光元件
3
一种基于信号融合的飞行员非接触生理状态评估方法
信号特征提取 状态评估方法 视频编码器 生理 深度学习模型
4
基于野外场景的水流速度测量方法及系统
速度测量方法 实时视频流 水流 防水摄像机 特征提取模块
5
一种人工智能可见光红外模态行人重识别方法
重识别方法 可见光 特征提取模块 基础 跨模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号