摘要
一种基于多模态LLM的图像分割模型,包括:VAE的编码器,用于将输入的与目标图像对应的掩码图像处理成离散的第一视觉token,并输出与第一视觉token对应的第一视觉token索引;多模态的LLM,用于基于输入的图像分割指令和目标图像进行自回归的推理计算,生成与目标图像对应的第二视觉token索引,并将第二视觉token索引进一步输入至VAE的解码器;VAE的解码器,将与第二视觉token索引对应的第二视觉token解码成与目标图像对应的掩码图像;其中,在对图像分割模型进行微调训练的过程中,VAE的模型参数处于冻结状态;对图像分割模型进行微调训练的模型损失包括第一视觉token索引和第二视觉token索引之间的交叉熵损失。
技术关键词
图像分割模型
多模态
视觉
索引
解码器
分辨率
图像分割方法
图像处理
指令
编码器
文本
数据
计算机程序产品
处理器
语义
样本
参数
系统为您推荐了相关专利信息
多模态数据融合
机器学习模型
实时通信
风险
模型训练模块
医学图像分割方法
半监督学习
医学图像分割模型
标记
上采样
多模态注意力
局部波动特征
电池健康管理
三维数据结构
解码器