摘要
本发明涉及计算机视觉与深度学习领域,提出了一种基于参数调优和多模态数据融合的语义分割方法。本方法的核心在于充分融合RGB、深度和Mask三种模态数据,以提高分割精度,采用冻结的SegFormer编码器并行提取特征,结合参数调优模块以实现室内语义分割任务适配,网络前两层通过Gate门动态加权融合RGB和Mask特征来以增强边界信息,后两层则利用上下文信息交互模块提升特征语义信息表达能力,引入多模态交叉融合模块,采用高效的交叉注意力和改进的空间坐标注意力,确保深度信息与RGB特征有效交互和增强。本发明不仅减少了计算负担,提升了模型效率,还显著提高了室内场景语义分割的准确性,具有广泛的应用前景。
技术关键词
语义分割方法
RGB特征
注意力
编码器
场景语义分割
多模态
参数
模块
阶段
融合策略
计算机视觉
模态特征
数据
坐标
元素
动态
通道
负担
核心