摘要
本发明公开了一种基于深度学习的图片型档案中文表格识别方法,涉及中文表格识别领域,该方法包括:对档案中文表格图片的表格结构进行识别,根据识别结果获取用HTML语言表示的表格结构序列以及单元格四点坐标;设计PA‑FPN模型检测单元格内文本行四点坐标,对每个所述单元格内的文本行取最小外接矩形轮廓;根据文本行四点坐标对原始表格图片进行裁剪后,通过卷积递归神经网络对每个裁剪后的文本行图片进行文本识别,得到文本字符串;根据聚合规则,将所述的表格结构序列、单元格坐标、文本行坐标及其内容进行聚合输出,生成完整的由HTML语言表示的表格文件。本发明能够有效提高对档案中文表格单元格内文本行检测的精确度。
技术关键词
表格识别方法
文本行
卷积递归神经网络
文本识别
图片
特征提取网络
坐标
序列
特征金字塔网络
处理器
图像
计算机程序产品
通道
轮廓
计算机设备
识别模块
可读存储介质
上采样
系统为您推荐了相关专利信息
甲虫诱捕器
分析预警方法
分析预警系统
图像采集终端
移动通讯模块
动态监测方法
图片
训练集
识别系统
训练深度学习模型
文字特征
打印异常检测方法
图像采集模块
深度学习模型
输出模块
生成系统
生成方法
大语言模型
数据收集模块
电子病例报告表