摘要
本发明提供一种高精度表格数据结构化的OCR识别方法及系统,包括:将原始图像转换为灰度图像并进行预处理;提取表格边缘结构线并填补断裂部分;检测预处理图像中纵横直线并计算交点,确定表格行列结构;划分单元格区域并定位生成单元格坐标矩阵;将单元格内像素划分为边框影响区与有效数据区,边框影响区执行邻域均值滤波与加权融合操作;有效数据区进行字符及符号的端到端检测,输出带坐标的OCR识别结果;基于单元格坐标矩阵和OCR识别结果,动态生成表格结构模板,通过规则推测策略匹配字段类型,并基于相邻单元格信息处理合并单元格缺失数据,输出结构化数据。本发明提升了OCR技术的可靠性与准确性,满足了自动化信息处理对高精度数据提取的需求。
技术关键词
表格数据结构
动态生成表格
识别方法
合并单元格
坐标
图像
Gamma校正方法
边缘检测算法
自动化信息处理
非局部均值去噪
字段
霍夫变换算法
像素点
矩阵
位置编码信息
表头
系统为您推荐了相关专利信息
障碍物
大功率永磁同步电机
前摆臂
摆臂式机器人
机身
图像恢复方法
坐标下降算法
双曲正切函数
最小化方法
符号