摘要
本发明涉及图像分割技术领域,更具体地说,涉及自回归顶点生成与语言结构引导的图像指代分割方法,获取输入图像和对应的指代查询语句;利用预训练的视觉编码器获取输入图像的多尺度视觉特征;利用预训练的语言编码器获取指代查询语句的语言特征;基于多尺度视觉特征,构建图像语义场景图;基于语言特征,构建查询语言依存图;利用图对齐机制和特征对齐机制,实现图像语义场景图与查询语言依存图的结构化多模态融合;基于结构化多模态融合的结果,采用语言引导的自回归实例生成方法生成目标实例的轮廓点序列;根据轮廓点序列生成目标实例的分割掩码;输出分割掩码作为图像指代分割的结果,实现了显著的性能提升。
技术关键词
语义场景
实例生成方法
视觉特征
语言编码器
句法依存关系
多模态
分割方法
生成图像内容
机制
语句
多尺度
依存句法分析
图像分割技术
轮廓
序列
顶点
对象
节点
多任务