基于图像语言监督的双曲空间的开放场景语义分割方法

正文

推荐专利

申请号：CN202510161027

申请日期：2025-02-13

公开号：CN120107582A

公开日期：2025-06-06

类型：发明专利

摘要

一种基于图像语言监督的双曲空间的开集语义分割方法，包括：构建图像域和语言域的双曲空间训练框架并进行训练；根据所述图像域和语言域的训练框架构建开放场景语义分割模型；将待分割图像输入到训练后的开放场景语义分割模型中，得到语义分割结果。本发明通过利用双曲空间能够编码层次结构的特性，通过在双曲空间中微调大型语言视觉模型的方式，将大型语言视觉模型的图像和文本编码器直接从图像级分类的层次迁移到像素级分类的层次，在保留开放场景能力的基础上使大型语言视觉模型具有语义分割能力。

技术关键词

场景语义分割方法文本编码器图像编码器语义层次结构细粒度特征矩阵像素预训练模型参数视觉框架动态基础通道

系统为您推荐了相关专利信息

一种基于深度学习的零样本图像目标检测方法

图像编码文本编码器样本采样模块马尔可夫模型

表格图片匹配方法、系统、介质及装置

图片匹配方法语义特征表格视觉特征交叉注意力机制

一种多模态融合癌症生存期预测系统及存储介质

图像特征数据基因融合特征可读存储介质分类器

一种针对噪声关联的文本-图像行人重识别方法

文本标记图像行人重识别方法噪声数据

一种越野工况驾驶状态预测方法、装置、介质及产品

状态预测方法车辆控制指令车辆状态预测环境感知信息工况

基于图像语言监督的双曲空间的开放场景语义分割方法

站点导航

APP 下载