摘要
本发明公开了一种流水表格识别方法及系统,属于表格识别技术领域,其方法具体包括:获取带表格的PDF文件,将带表格的PDF文件转化为图像,并对图像进行矫正,分别检测图像中的文本、表格和日期信息,对检测出的日期信息进行完善和分组,判断出图像中的表格具体位置,包括表头位置和标体位置,根据图像中的日期信息进行分行,使用分列技术获取候选列线,然后根据候选列线结合文本语义和字符特征进行分列,根据识别出的文本块所属的行和列,使用json格式输出每个文本块以及对应的行列位置,通过本方法,可以针对各种版式做表格识别,准确的识别出各种版式的表格内容。
技术关键词
表格识别方法
日期
流水
字符
分列模块
图像获取模块
表格识别技术
表头
文本行
识别系统
语义
输出模块
逻辑
矫正
格式
计算机
系统为您推荐了相关专利信息
序列比对算法
映射关系表
项目
动态规划方法
特征向量库
数据加密方法
加密数据
字符
加密算法
历史访问记录
信号处理架构
侦察系统
分析模块
模数转换模块
滤波模块
样本
特征描述数据
形态
地质灾害智能
信息融合技术
深度学习模型
数据交换格式文件
GPU帧缓冲区
图形处理单元
LSTM模型