基于特征交互和多模态数据融合的开放词汇语义分割方法和装置

AITNT
正文
推荐专利
基于特征交互和多模态数据融合的开放词汇语义分割方法和装置
申请号:CN202510774292
申请日期:2025-06-11
公开号:CN120655924B
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供一种基于特征交互和多模态数据融合的开放词汇语义分割方法和装置。采用冻结参数的SAM编码器并行提取RGB图像与Mask图像特征,并通过特征融合模块进行边界信息增强。利用冻结参数的CLIP图像编码器对RGB图像进行多层特征提取,并通过特征增强模块进行多尺度语义信息优化。通过特征交互模块融合SAM分支与CLIP分支提取的图像特征,实现跨网络特征互补。在预测阶段,引入结合温度缩放操作的类别集成策略,以优化已知与未知类别的预测效果。本发明结合了SAM在图像边界提取方面的优势与CLIP的图文对齐能力,通过多模态特征融合与交互,有效提升了模型在开放词汇语义分割任务中的泛化能力与鲁棒性。
技术关键词
语义分割方法 网络解码器 文本编码器 图像编码器 上下文特征 集成策略 融合特征 模块 图像边界提取 多模态特征融合 矩阵 融合图像特征 交叉注意力机制 多尺度特征融合 多分支结构 文本特征向量 数据
系统为您推荐了相关专利信息
1
一种用于LED灯条的在线检测方法
在线检测方法 剔除装置 图像采集参数 缺陷位置信息 上下文特征
2
一种跨模态食品检索方法
图像编码器 检索方法 跨模态 全局视觉特征 层次化语义
3
一种基于原型跨图像一致性的半监督语义分割方法
原型 注意力 语义分割方法 网络 图像
4
风险规则处理方法、装置、存储介质及电子设备
模式 异常信息 上下文特征 数值 可读存储介质
5
基于自回归同步预测及规划的端到端自动驾驶方法和系统
红绿灯 地图特征 自动驾驶方法 位置编码器 图像编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号