一种基于Transformer的重叠文本行分割定位方法及系统

正文

推荐专利

申请号：CN202510094962

申请日期：2025-01-21

公开号：CN120071359A

公开日期：2025-05-30

类型：发明专利

摘要

本发明涉及计算机视觉领域，尤其是一种基于Transformer的重叠文本行分割定位方法及系统。该方法包括：输入包含重叠文本行的原始图像，对所述原始图像进行预处理；将预处理后的所述原始图像输入训练好的像素级实例分割模型，分割并输出每个文本行的掩码；提取每个文本行的掩码，并对所述掩码进行后处理，确保所述掩码的连贯性和完整性；针对经过后处理的所述掩码进行文本行的轮廓拟合，通过计算轮廓的几何形状确定每个文本行的边界；根据拟合的文本轮廓生成文本定位信息，得到每个文本行的具体位置、尺寸和形状，完成交叠文本行的定位。本发明技术方案通过引入Transformer技术，提供一种创新的重叠文本分割方法。该方法设计了一种专门针对重叠文本分割的Transformer模型，显著提升了对票据、表单等包含交叠文本的文档图像的处理能力，确保生成高效且精准的结构化数据。

技术关键词

前景文本实例分割模型分割定位方法文本行标签文件定位分割系统轮廓文本分割方法像素图像处理算法通道样本噪声计算机视觉注意力机制网络架构边缘检测

系统为您推荐了相关专利信息

实例分割模型确定方法、装置、设备及存储介质

实例分割模型对象样本图像算法

用于训练对象检测器的实例分割模型的计算机实现的方法

实例分割模型对象三元组图像标签

一种矩形目标物体轮廓畸形与倾斜还原提取的方法

实例分割模型物体轮廓矩形坐标矫正

视网膜脉冲信号解码方法和装置、电子设备、存储介质

标签文本脉冲编码器脉冲特征文本生成器信号解码方法

一种正文和水印的识别方法、装置及应用方法

文本行水印光学字符识别校正识别文档图像

一种基于Transformer的重叠文本行分割定位方法及系统

站点导航

APP 下载