摘要
本发明公开了一种基于OCR模型的表格数据恢复方法,包括:步骤S1,采用轻量级模型识别表格类型,表格类型包括有线表格和无线表格;步骤S2,分别获取无线表格的检测框的逻辑坐标和物理坐标,以及有线表格的单元格物理坐标;步骤S3,根据检测到的表格坐标,恢复表格的逻辑结构,确定表格的行列关系;步骤S4,使用文本识别模型对图像进行文字识别,获取文字框的位置和内容,并通过计算OCR识别文字框和单元格框的坐标重合度进行文字和单元格的准确匹配,确定每个单元格中的文字内容;步骤S5,对于未匹配到文字的单元格,把单元格区域进行裁剪,对这些单元格的图像区域进行二次OCR识别,补充缺失的文字内容。本发明提高了复杂表格数据的自动化识别和解析能力。
技术关键词
数据恢复方法
表格
坐标
文本识别模型
逻辑
物理
图像
合并单元格
线条特征
偏移特征
多边形
尺寸
格式
基准
对比度
算法
分辨率
线段
关系
系统为您推荐了相关专利信息
数据挖掘方法
数据挖掘系统
数据可视化
数据质量检查
数据储存模块
机器学习模型
数据写入方法
闪存设备
可执行程序代码
可读存储介质
协议状态机
漏洞
测试用例分发方法
分发策略
异常状态
引线框架
裸片焊盘
半导体封装体
面板
逻辑半导体芯片
模糊PID算法
驱动信号
电机控制模块
PWM占空比
电压采样模块