摘要
本发明涉及图像分割领域,提供一种基于查询解耦和原型分类的通用文档图像分割方法,包括:利用视觉骨架网络对输入文档图像提取多尺度视觉特征,并进行优化得到优化后的多尺度视觉特征;利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量;将优化后的多尺度视觉特征、语义查询向量以及实例查询向量输入混合查询解码器中得到更新后的语义查询向量和实例查询向量;利用更新后的语义查询向量和实例查询向量分别进行语义分割和实例分割,得到语义分割结果和实例分割结果。本发明不仅能处理多种类型文档图像上的多种分割任务,还能够以任意文档图像和分割任务提示为输入,输出相应的分割结果。
技术关键词
文档图像分割方法
语义
实例分割
交叉注意力机制
文本编码器
原型
混合多尺度
前馈神经网络
非暂态计算机可读存储介质
解码器
特征金字塔网络
图像分割装置
视觉特征提取
令牌