摘要
本申请实施例提供一种基于层次化词元表示的多模态大模型图像分割方法及装置,通过设计掩码标记器将掩码图像编码为词元序列,通过因果注意力机制实现从形状原型到局部细节的渐进生成。采用三阶段训练策略,先通过掩码重建任务训练标记器,再将掩码词元整合进大型多模态模型并进行联合训练,最后利用高分辨率数据微调。基于层次化掩码损失函数进行多层次监督,实现对自然语言描述目标的精准分割。该方法有效解决了传统技术在复杂场景理解、模型训练和掩码生成等方面的不足,显著提升了多模态图像分割的性能。
技术关键词
语义分割模型
图像分割方法
序列
多模态
标记器
解码器
局部细节特征
图像编码
对象
双向注意力机制
重建误差
数据
多层次监督
交互特征
图像梯度信息
图像分割装置
原型