摘要
一种基于图像语言监督的双曲空间的开集语义分割方法,包括:构建图像域和语言域的双曲空间训练框架并进行训练;根据所述图像域和语言域的训练框架构建开放场景语义分割模型;将待分割图像输入到训练后的开放场景语义分割模型中,得到语义分割结果。本发明通过利用双曲空间能够编码层次结构的特性,通过在双曲空间中微调大型语言视觉模型的方式,将大型语言视觉模型的图像和文本编码器直接从图像级分类的层次迁移到像素级分类的层次,在保留开放场景能力的基础上使大型语言视觉模型具有语义分割能力。
技术关键词
场景语义分割方法
文本编码器
图像编码器
语义层次结构
细粒度特征
矩阵
像素
预训练模型
参数
视觉
框架
动态
基础
通道
系统为您推荐了相关专利信息
图像编码
文本编码器
样本
采样模块
马尔可夫模型
图片匹配方法
语义特征
表格
视觉特征
交叉注意力机制
图像特征数据
基因
融合特征
可读存储介质
分类器
状态预测方法
车辆控制指令
车辆状态预测
环境感知信息
工况