摘要
本发明涉及计算机视觉技术领域,公开了一种复杂生物图像场景下实例分割任务文本化方法、系统及设备。方法包括:获取原始图像以及与原始图像匹配的文本提示和视觉提示;将原始图像以及与原始图像匹配的视觉提示进行编码及特征空间对齐,将对齐的编码结果与文本提示作为语言译码器的输入嵌入;利用语言译码器对输入嵌入进行多级推理,得到不同精细程度的推理结果;利用掩码解码器对不同程度的推理结果及原始图像的编码结果进行解码,得到图像形式的精细实例分割掩码结果。本发明通过将图像实例分割任务转换为文本推理任务,充分利用了现有大语言模型中丰富先验知识,以语义推理方式执行实例分割,实现了图像目标间复杂关系解析与精细的实例分割。
技术关键词
实例分割
文本
译码器
图像匹配
生物
场景
解码器
计算机视觉技术
图像编码器
大语言模型
数据获取模块
对齐模块
转换器
关系