基于深度学习的图片型档案中文表格识别方法

正文

推荐专利

申请号：CN202411054787

申请日期：2024-08-02

公开号：CN119049074A

公开日期：2024-11-29

类型：发明专利

摘要

本发明公开了一种基于深度学习的图片型档案中文表格识别方法，涉及中文表格识别领域，该方法包括：对档案中文表格图片的表格结构进行识别，根据识别结果获取用HTML语言表示的表格结构序列以及单元格四点坐标；设计PA‑FPN模型检测单元格内文本行四点坐标，对每个所述单元格内的文本行取最小外接矩形轮廓；根据文本行四点坐标对原始表格图片进行裁剪后，通过卷积递归神经网络对每个裁剪后的文本行图片进行文本识别，得到文本字符串；根据聚合规则，将所述的表格结构序列、单元格坐标、文本行坐标及其内容进行聚合输出，生成完整的由HTML语言表示的表格文件。本发明能够有效提高对档案中文表格单元格内文本行检测的精确度。

技术关键词

表格识别方法文本行卷积递归神经网络文本识别图片特征提取网络坐标序列特征金字塔网络处理器图像计算机程序产品通道轮廓计算机设备识别模块可读存储介质上采样

系统为您推荐了相关专利信息

一种用于烟厂的虫情自动分析预警方法及系统

甲虫诱捕器分析预警方法分析预警系统图像采集终端移动通讯模块

一种山顶蝴蝶动态监测方法

动态监测方法图片训练集识别系统训练深度学习模型

一种基于AR设备的文档批注方法和装置

文档批注方法 AR设备信息载体实时位置语义

基于字根模型的文字打印异常检测方法与装置

文字特征打印异常检测方法图像采集模块深度学习模型输出模块

临床试验电子病例报告表的生成方法及生成系统

生成系统生成方法大语言模型数据收集模块电子病例报告表

基于深度学习的图片型档案中文表格识别方法

站点导航

APP 下载