一种基于多模态LLM的图像分割方法

AITNT
正文
推荐专利
一种基于多模态LLM的图像分割方法
申请号:CN202511029467
申请日期:2025-07-24
公开号:CN120912884A
公开日期:2025-11-07
类型:发明专利
摘要
一种基于多模态LLM的图像分割模型,包括:VAE的编码器,用于将输入的与目标图像对应的掩码图像处理成离散的第一视觉token,并输出与第一视觉token对应的第一视觉token索引;多模态的LLM,用于基于输入的图像分割指令和目标图像进行自回归的推理计算,生成与目标图像对应的第二视觉token索引,并将第二视觉token索引进一步输入至VAE的解码器;VAE的解码器,将与第二视觉token索引对应的第二视觉token解码成与目标图像对应的掩码图像;其中,在对图像分割模型进行微调训练的过程中,VAE的模型参数处于冻结状态;对图像分割模型进行微调训练的模型损失包括第一视觉token索引和第二视觉token索引之间的交叉熵损失。
技术关键词
图像分割模型 多模态 视觉 索引 解码器 分辨率 图像分割方法 图像处理 指令 编码器 文本 数据 计算机程序产品 处理器 语义 样本 参数
系统为您推荐了相关专利信息
1
一种基于邻域搜索的孔隙网络结构提取方法
多孔介质模型 三维多孔介质 元素 坐标 固体
2
一种涉诈行为识别的方法、装置及电子设备
多模态数据融合 机器学习模型 实时通信 风险 模型训练模块
3
基于基础模型辅助半监督学习的医学图像分割方法及系统
医学图像分割方法 半监督学习 医学图像分割模型 标记 上采样
4
基于目标先验自回归查询的RGBL跟踪方法
令牌 语义 跟踪方法 视觉特征 特征提取模块
5
一种锂电池寿命预测方法
多模态注意力 局部波动特征 电池健康管理 三维数据结构 解码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号