摘要
本发明实施例公开了一种基于SAM模型的多模态自动驾驶图像分割方法及系统,所述方法包括:构建步骤:构建SAM模型,所述模型包括图像编码器、掩膜解码器、提示编码器、模态编码器和深度感知模块;训练步骤:使用交叉熵损失和Dice损失来训练模型;识别步骤:将多模态的自动驾驶图像输入模型,输出对所述自动驾驶图像中各个对象的分割结果。本发明通过引入轻量级的模态编码器和深度感知模块,实现了对深度信息或者其他模态信息的特征编码,深度感知模块将编码的深度信息注入到SAM模型的骨干网络中,实现深度特征和RGB特征的交替增强,从而实现了对SAM模型的多模态拓展,避免了对于每一种多模态任务都重新训练大模型的巨大计算开销。
技术关键词
图像编码器
图像分割方法
RGB特征
图像分割系统
跨模态
注意力
多模态
模块
解码器
掩膜
对象
标签
物体
代表
参数
网络