一种基于文本引导的空基视角图像语义分割与目标检测协同方法

AITNT
正文
推荐专利
一种基于文本引导的空基视角图像语义分割与目标检测协同方法
申请号:CN202511031578
申请日期:2025-07-25
公开号:CN120910792A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及一种基于文本引导的空基视角图像语义分割与目标检测协同方法,属于图像目标检测及分割领域;方法包括:使用空基视角图像数据及文本数据构建数据集,对图像进行超像素划分得到分割掩码;对数据集中的图像数据、文本数据进行编码得到对应的视觉编码、文本编码;对视觉编码和文本编码进行跨模态编码得到跨模态视觉特征与跨模态文本特征;使用分割掩码与跨模态视觉特征进行采样和聚合获得超像素聚合特征;在目标检测分支根据跨模态视觉、文本特征更新查询向量并预测文本引导框,在图像分割分支利用跨模态文本特征和超像素聚合特征生成预测掩码,利用查询向量和预测掩码对齐两分支输出结果。本发明减少了计算量并提高了任务效率。
技术关键词
图像语义分割 视觉特征 协同方法 文本 跨模态 图像分割 编码 视角 解码器 分支 检测损失 交叉注意力机制 超像素特征 生成超像素 骰子 网络模型训练
系统为您推荐了相关专利信息
1
一种用于服饰纹理替换的智能重绘方法及装置
重绘方法 服饰 图像超分辨率 高清 生成深度图
2
基于知识追踪与检索增强生成的学习资源推荐方法及系统
学习资源推荐方法 知识点 学习资源推荐系统 联合嵌入模型 多任务损失函数
3
用于课堂教学的多媒体电子书控制方法及装置
电子书控制方法 多媒体 教师 文本 梅尔频率倒谱系数
4
问答结果输出方法、设备、存储介质及程序产品
字典 语义 文本 索引 查询业务数据
5
基于多模态的医学算法模型构建系统
模型构建系统 医学算法 大语言模型 多模态数据采集 子模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号