自回归顶点生成与语言结构引导的图像指代分割方法

正文

推荐专利

申请号：CN202411914326

申请日期：2024-12-24

公开号：CN119850952A

公开日期：2025-04-18

类型：发明专利

摘要

本发明涉及图像分割技术领域，更具体地说，涉及自回归顶点生成与语言结构引导的图像指代分割方法，获取输入图像和对应的指代查询语句；利用预训练的视觉编码器获取输入图像的多尺度视觉特征；利用预训练的语言编码器获取指代查询语句的语言特征；基于多尺度视觉特征，构建图像语义场景图；基于语言特征，构建查询语言依存图；利用图对齐机制和特征对齐机制，实现图像语义场景图与查询语言依存图的结构化多模态融合；基于结构化多模态融合的结果，采用语言引导的自回归实例生成方法生成目标实例的轮廓点序列；根据轮廓点序列生成目标实例的分割掩码；输出分割掩码作为图像指代分割的结果，实现了显著的性能提升。

技术关键词

语义场景实例生成方法视觉特征语言编码器句法依存关系多模态分割方法生成图像内容机制语句多尺度依存句法分析图像分割技术轮廓序列顶点对象节点多任务

自回归顶点生成与语言结构引导的图像指代分割方法

站点导航

APP 下载