摘要
本发明提出一种基于上下文指令的任意视觉成分分离方法。该方法包含了一种通用的视觉成分分离模型以及相应的训练数据合成流程,构建的视觉成分分离模型可以在上下文中从图像中分离任何视觉成分。具体来说,模型将一个演示示例和一个查询图像组合成网格形式作为输入,模型被训练显式参考演示示例中已分离视觉成分的语义,以分离查询图像中语义相同的视觉成分。该方式通过基于上下文指令的学习范式使模型可以处理任意未见过的视觉成分。
技术关键词
图像处理网络
视觉
语义
指令
拉格朗日插值
图像分割模型
细粒度特征
亮度
优化器
网格特征
决策
文本
机制
图像拼接
数据
节点
非线性
U型结构