一种基于多模态LLM的图像分割方法

正文

推荐专利

一种基于多模态LLM的图像分割方法

申请号：CN202511029467

申请日期：2025-07-24

公开号：CN120912884A

公开日期：2025-11-07

类型：发明专利

摘要

一种基于多模态LLM的图像分割模型，包括：VAE的编码器，用于将输入的与目标图像对应的掩码图像处理成离散的第一视觉token，并输出与第一视觉token对应的第一视觉token索引；多模态的LLM，用于基于输入的图像分割指令和目标图像进行自回归的推理计算，生成与目标图像对应的第二视觉token索引，并将第二视觉token索引进一步输入至VAE的解码器；VAE的解码器，将与第二视觉token索引对应的第二视觉token解码成与目标图像对应的掩码图像；其中，在对图像分割模型进行微调训练的过程中，VAE的模型参数处于冻结状态；对图像分割模型进行微调训练的模型损失包括第一视觉token索引和第二视觉token索引之间的交叉熵损失。

技术关键词

图像分割模型多模态视觉索引解码器分辨率图像分割方法图像处理指令编码器文本数据计算机程序产品处理器语义样本参数

系统为您推荐了相关专利信息

一种基于邻域搜索的孔隙网络结构提取方法

多孔介质模型三维多孔介质元素坐标固体

一种涉诈行为识别的方法、装置及电子设备

多模态数据融合机器学习模型实时通信风险模型训练模块

基于基础模型辅助半监督学习的医学图像分割方法及系统

医学图像分割方法半监督学习医学图像分割模型标记上采样

基于目标先验自回归查询的RGBL跟踪方法

令牌语义跟踪方法视觉特征特征提取模块

一种锂电池寿命预测方法

多模态注意力局部波动特征电池健康管理三维数据结构解码器

一种基于多模态LLM的图像分割方法

站点导航

APP 下载