基于特征交互和多模态数据融合的开放词汇语义分割方法和装置

正文

推荐专利

申请号：CN202510774292

申请日期：2025-06-11

公开号：CN120655924B

公开日期：2025-11-28

类型：发明专利

摘要

本发明提供一种基于特征交互和多模态数据融合的开放词汇语义分割方法和装置。采用冻结参数的SAM编码器并行提取RGB图像与Mask图像特征，并通过特征融合模块进行边界信息增强。利用冻结参数的CLIP图像编码器对RGB图像进行多层特征提取，并通过特征增强模块进行多尺度语义信息优化。通过特征交互模块融合SAM分支与CLIP分支提取的图像特征，实现跨网络特征互补。在预测阶段，引入结合温度缩放操作的类别集成策略，以优化已知与未知类别的预测效果。本发明结合了SAM在图像边界提取方面的优势与CLIP的图文对齐能力，通过多模态特征融合与交互，有效提升了模型在开放词汇语义分割任务中的泛化能力与鲁棒性。

技术关键词

语义分割方法网络解码器文本编码器图像编码器上下文特征集成策略融合特征模块图像边界提取多模态特征融合矩阵融合图像特征交叉注意力机制多尺度特征融合多分支结构文本特征向量数据

系统为您推荐了相关专利信息

一种用于LED灯条的在线检测方法

在线检测方法剔除装置图像采集参数缺陷位置信息上下文特征

一种跨模态食品检索方法

图像编码器检索方法跨模态全局视觉特征层次化语义

一种基于原型跨图像一致性的半监督语义分割方法

原型注意力语义分割方法网络图像

风险规则处理方法、装置、存储介质及电子设备

模式异常信息上下文特征数值可读存储介质

基于自回归同步预测及规划的端到端自动驾驶方法和系统

红绿灯地图特征自动驾驶方法位置编码器图像编码器

基于特征交互和多模态数据融合的开放词汇语义分割方法和装置

站点导航

APP 下载