摘要
本发明涉及计算机视觉领域,尤其是一种基于Transformer的重叠文本行分割定位方法及系统。该方法包括:输入包含重叠文本行的原始图像,对所述原始图像进行预处理;将预处理后的所述原始图像输入训练好的像素级实例分割模型,分割并输出每个文本行的掩码;提取每个文本行的掩码,并对所述掩码进行后处理,确保所述掩码的连贯性和完整性;针对经过后处理的所述掩码进行文本行的轮廓拟合,通过计算轮廓的几何形状确定每个文本行的边界;根据拟合的文本轮廓生成文本定位信息,得到每个文本行的具体位置、尺寸和形状,完成交叠文本行的定位。本发明技术方案通过引入Transformer技术,提供一种创新的重叠文本分割方法。该方法设计了一种专门针对重叠文本分割的Transformer模型,显著提升了对票据、表单等包含交叠文本的文档图像的处理能力,确保生成高效且精准的结构化数据。
技术关键词
前景文本
实例分割模型
分割定位方法
文本行
标签文件
定位分割系统
轮廓
文本分割方法
像素
图像处理算法
通道
样本
噪声
计算机视觉
注意力机制
网络架构
边缘检测
系统为您推荐了相关专利信息
标签文本
脉冲编码器
脉冲特征
文本生成器
信号解码方法