一种基于文本引导的空基视角图像语义分割与目标检测协同方法

正文

推荐专利

申请号：CN202511031578

申请日期：2025-07-25

公开号：CN120910792A

公开日期：2025-11-07

类型：发明专利

摘要

本发明涉及一种基于文本引导的空基视角图像语义分割与目标检测协同方法，属于图像目标检测及分割领域；方法包括：使用空基视角图像数据及文本数据构建数据集，对图像进行超像素划分得到分割掩码；对数据集中的图像数据、文本数据进行编码得到对应的视觉编码、文本编码；对视觉编码和文本编码进行跨模态编码得到跨模态视觉特征与跨模态文本特征；使用分割掩码与跨模态视觉特征进行采样和聚合获得超像素聚合特征；在目标检测分支根据跨模态视觉、文本特征更新查询向量并预测文本引导框，在图像分割分支利用跨模态文本特征和超像素聚合特征生成预测掩码，利用查询向量和预测掩码对齐两分支输出结果。本发明减少了计算量并提高了任务效率。

技术关键词

图像语义分割视觉特征协同方法文本跨模态图像分割编码视角解码器分支检测损失交叉注意力机制超像素特征生成超像素骰子网络模型训练

系统为您推荐了相关专利信息

一种用于服饰纹理替换的智能重绘方法及装置

重绘方法服饰图像超分辨率高清生成深度图

基于知识追踪与检索增强生成的学习资源推荐方法及系统

学习资源推荐方法知识点学习资源推荐系统联合嵌入模型多任务损失函数

用于课堂教学的多媒体电子书控制方法及装置

电子书控制方法多媒体教师文本梅尔频率倒谱系数

问答结果输出方法、设备、存储介质及程序产品

字典语义文本索引查询业务数据

基于多模态的医学算法模型构建系统

模型构建系统医学算法大语言模型多模态数据采集子模块

一种基于文本引导的空基视角图像语义分割与目标检测协同方法

站点导航

APP 下载