基于层次化词元表示的多模态大模型图像分割方法及装置

正文

推荐专利

申请号：CN202510297247

申请日期：2025-03-13

公开号：CN120298683A

公开日期：2025-07-11

类型：发明专利

摘要

本申请实施例提供一种基于层次化词元表示的多模态大模型图像分割方法及装置，通过设计掩码标记器将掩码图像编码为词元序列，通过因果注意力机制实现从形状原型到局部细节的渐进生成。采用三阶段训练策略，先通过掩码重建任务训练标记器，再将掩码词元整合进大型多模态模型并进行联合训练，最后利用高分辨率数据微调。基于层次化掩码损失函数进行多层次监督，实现对自然语言描述目标的精准分割。该方法有效解决了传统技术在复杂场景理解、模型训练和掩码生成等方面的不足，显著提升了多模态图像分割的性能。

技术关键词

语义分割模型图像分割方法序列多模态标记器解码器局部细节特征图像编码对象双向注意力机制重建误差数据多层次监督交互特征图像梯度信息图像分割装置原型

基于层次化词元表示的多模态大模型图像分割方法及装置

站点导航

APP 下载