摘要
本发明提供一种表格文档识别方法、装置、电子设备和存储介质,其中方法包括:对待识别文档图像进行表格检测,得到表格图像;对表格图像进行表格线检测,得到横线段和竖线段;基于横线段和竖线段,确定表格单元格交点信息,并根据交点信息确定表格单元格结构信息;对待识别文档图像进行文本检测,得到检测结果;将检测结果中的各文本检测框与表格单元格结构信息中的各单元格进行匹配,得到各单元格对应的文本行区域,并对文本行区域进行文本识别,得到各单元格的文本识别结果。本发明通过对表格图像进行表格线检测,并根据检测得到横线段和竖线段,可以准确地确定表格单元格的交点信息和结构信息,提高了表格结构识别的准确率。
技术关键词
文档识别方法
表格
识别文档图像
文本识别模型
文本行
索引
文档识别装置
非暂态计算机可读存储介质
字典
坐标
线段
电子设备
处理器
解析单元
矩形
存储器
直线
系统为您推荐了相关专利信息
贷后管理方法
表格
双向长短期记忆网络
深度学习模型
问答模型
产品知识图谱构建
关系
实体
图像
近邻传播聚类算法