摘要
本发明提供一种基于特征交互和多模态数据融合的开放词汇语义分割方法和装置。采用冻结参数的SAM编码器并行提取RGB图像与Mask图像特征,并通过特征融合模块进行边界信息增强。利用冻结参数的CLIP图像编码器对RGB图像进行多层特征提取,并通过特征增强模块进行多尺度语义信息优化。通过特征交互模块融合SAM分支与CLIP分支提取的图像特征,实现跨网络特征互补。在预测阶段,引入结合温度缩放操作的类别集成策略,以优化已知与未知类别的预测效果。本发明结合了SAM在图像边界提取方面的优势与CLIP的图文对齐能力,通过多模态特征融合与交互,有效提升了模型在开放词汇语义分割任务中的泛化能力与鲁棒性。
技术关键词
语义分割方法
网络解码器
文本编码器
图像编码器
上下文特征
集成策略
融合特征
模块
图像边界提取
多模态特征融合
矩阵
融合图像特征
交叉注意力机制
多尺度特征融合
多分支结构
文本特征向量
数据
系统为您推荐了相关专利信息
在线检测方法
剔除装置
图像采集参数
缺陷位置信息
上下文特征
图像编码器
检索方法
跨模态
全局视觉特征
层次化语义
红绿灯
地图特征
自动驾驶方法
位置编码器
图像编码器