一种基于Transformer的重叠文本行分割定位方法及系统

AITNT
正文
推荐专利
一种基于Transformer的重叠文本行分割定位方法及系统
申请号:CN202510094962
申请日期:2025-01-21
公开号:CN120071359A
公开日期:2025-05-30
类型:发明专利
摘要
本发明涉及计算机视觉领域,尤其是一种基于Transformer的重叠文本行分割定位方法及系统。该方法包括:输入包含重叠文本行的原始图像,对所述原始图像进行预处理;将预处理后的所述原始图像输入训练好的像素级实例分割模型,分割并输出每个文本行的掩码;提取每个文本行的掩码,并对所述掩码进行后处理,确保所述掩码的连贯性和完整性;针对经过后处理的所述掩码进行文本行的轮廓拟合,通过计算轮廓的几何形状确定每个文本行的边界;根据拟合的文本轮廓生成文本定位信息,得到每个文本行的具体位置、尺寸和形状,完成交叠文本行的定位。本发明技术方案通过引入Transformer技术,提供一种创新的重叠文本分割方法。该方法设计了一种专门针对重叠文本分割的Transformer模型,显著提升了对票据、表单等包含交叠文本的文档图像的处理能力,确保生成高效且精准的结构化数据。
技术关键词
前景文本 实例分割模型 分割定位方法 文本行 标签文件 定位分割系统 轮廓 文本分割方法 像素 图像处理算法 通道 样本 噪声 计算机视觉 注意力机制 网络架构 边缘检测
系统为您推荐了相关专利信息
1
实例分割模型确定方法、装置、设备及存储介质
实例分割模型 对象 样本 图像 算法
2
用于训练对象检测器的实例分割模型的计算机实现的方法
实例分割模型 对象 三元组 图像 标签
3
一种矩形目标物体轮廓畸形与倾斜还原提取的方法
实例分割模型 物体轮廓 矩形 坐标 矫正
4
视网膜脉冲信号解码方法和装置、电子设备、存储介质
标签文本 脉冲编码器 脉冲特征 文本生成器 信号解码方法
5
一种正文和水印的识别方法、装置及应用方法
文本行 水印 光学字符识别 校正 识别文档图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号