摘要
本发明属于图像分割技术领域,公开一种基于上下文标记提示的长视频目标推理分割方法,包括预训练图像编码器、多层感知机映射模块、多模态特征融合模块、大语言模型和掩码传播器。先从等分的视频片段中采样支持帧,并与关键帧一起通过预训练的图像编码器和多层感知机映射模块将为相对应的视觉特征;多模态特征融合模块通过多个融合模块,将参考表达与支持帧的视觉特征注入到潜在查询中,生成富集后的潜在查询;这些富集后的潜在查询引导大语言模型生成关键帧及全视频级的<SEG>标记,最终由基于SAM2的掩码传播器准确解码并在所有帧中持续一致地传播。该方法通过上下文标记提示和多模态特征融合模块解决了长距离依赖建模与一致性跟踪问题。
技术关键词
多模态特征融合
视觉特征
大语言模型
图像编码器
视频
分割方法
多层感知机
标记
富集
文本
模块
识别关键帧
混合损失函数
图像分割技术
记忆机制
解码信息
策略
注意力