一种PDF转Word二维数组表格识别方法、装置及可读存储介质

正文

推荐专利

申请号：CN202411450005

申请日期：2024-10-17

公开号：CN119294374A

公开日期：2025-01-10

类型：发明专利

摘要

本发明属于PDF文件解析技术领域提供了一种PDF转Word二维数组表格识别方法、装置及可读存储介质。采用本发明，直接读取PDF底层的操作符信息，根据操作符携带的信息，来生成线框信息，再将线框信息转换成二维数组，不需要再关注线段的连续性已经是否应该合并，在转换二维数组的过程中实际上已经借助数组完成了这件事，后续利用感染算法、孤岛算法、预处理数组，可以快速的定位出表格区域、单元格区域以及边框信息，由此极大的提升了表格的识别生成效率，兼具了速度和准确性的优势。

技术关键词

表格识别方法上边框线段文件解析技术算法坐标存储计算机程序存储器线框连续性处理器可读存储介质矩形页面顶点规模空隙曲线

系统为您推荐了相关专利信息

一种具有评估功能的离线渲染系统及方法

离线渲染系统校验模块打包模块生成可执行文件

一种停车位消防感应灭火装置及方法

感应灭火装置停车位无人机协同消防水带

基于快速层归一化注意力SLNA机制的异常检测方法

异常检测方法非易失性存储介质检测编码器适配器计算机可读指令

一种电动车辆的扭矩控制方法

扭矩控制方法加速度车辆驱动控制计算方法校正

胃腺癌预后标志物及临床预后预测模型

预后预测模型标志物基因风险评估模型随机森林

一种PDF转Word二维数组表格识别方法、装置及可读存储介质

站点导航

APP 下载