摘要
本发明涉及一种基于文本引导的空基视角图像语义分割与目标检测协同方法,属于图像目标检测及分割领域;方法包括:使用空基视角图像数据及文本数据构建数据集,对图像进行超像素划分得到分割掩码;对数据集中的图像数据、文本数据进行编码得到对应的视觉编码、文本编码;对视觉编码和文本编码进行跨模态编码得到跨模态视觉特征与跨模态文本特征;使用分割掩码与跨模态视觉特征进行采样和聚合获得超像素聚合特征;在目标检测分支根据跨模态视觉、文本特征更新查询向量并预测文本引导框,在图像分割分支利用跨模态文本特征和超像素聚合特征生成预测掩码,利用查询向量和预测掩码对齐两分支输出结果。本发明减少了计算量并提高了任务效率。
技术关键词
图像语义分割
视觉特征
协同方法
文本
跨模态
图像分割
编码
视角
解码器
分支
检测损失
交叉注意力机制
超像素特征
生成超像素
骰子
网络模型训练
系统为您推荐了相关专利信息
学习资源推荐方法
知识点
学习资源推荐系统
联合嵌入模型
多任务损失函数
电子书控制方法
多媒体
教师
文本
梅尔频率倒谱系数
模型构建系统
医学算法
大语言模型
多模态数据采集
子模块