一种基于跨模态视觉-文本融合的遥感图像分割方法

AITNT
正文
推荐专利
一种基于跨模态视觉-文本融合的遥感图像分割方法
申请号:CN202411566420
申请日期:2024-11-05
公开号:CN119600040A
公开日期:2025-03-11
类型:发明专利
摘要
本发明提供一种基于跨模态视觉‑文本融合的遥感图像分割方法,主体网络包括可以提取图像特征的图像编码器、提取语言特征的语言编码器、可以进行分割引导的跨模态视觉语言特征融合器、图像解码器模块设计,并设计非关键过滤器让模型更加聚焦于语言描述中的关键词,设计中心点预测器增强模型识别困难目标的能力,设计目标区域预测器让模型找出最可能包含目标的区域,设计虚警预测器来处理描述虚假目标的情况。最终搭建基于跨模态视觉‑文本融合的遥感图像指示分割网络模型,进行网络模型训练与参数优化。本网络模型所有模块都是基于Transformer模型,通过引入注意力机制捕获遥感图像局部特征与全局特征的的关系依赖以及遥感图像各区域与语言描述的关系依赖,使用跨模态视觉语言特征融合器使模型更加关注描述目标所在区域,最终实现从遥感场景图像中识别特定描述的目标。
技术关键词
遥感图像分割方法 跨模态 图像编码器 语言编码器 图像解码器 视觉 遥感场景图像 预训练模型 文本 多层感知机 引入注意力机制 图像局部特征 做法 网络模型训练 图像分割模型 关键词特征 过滤器结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号