一种PDF转Word二维数组表格识别方法、装置及可读存储介质

AITNT
正文
推荐专利
一种PDF转Word二维数组表格识别方法、装置及可读存储介质
申请号:CN202411450005
申请日期:2024-10-17
公开号:CN119294374A
公开日期:2025-01-10
类型:发明专利
摘要
本发明属于PDF文件解析技术领域提供了一种PDF转Word二维数组表格识别方法、装置及可读存储介质。采用本发明,直接读取PDF底层的操作符信息,根据操作符携带的信息,来生成线框信息,再将线框信息转换成二维数组,不需要再关注线段的连续性已经是否应该合并,在转换二维数组的过程中实际上已经借助数组完成了这件事,后续利用感染算法、孤岛算法、预处理数组,可以快速的定位出表格区域、单元格区域以及边框信息,由此极大的提升了表格的识别生成效率,兼具了速度和准确性的优势。
技术关键词
表格识别方法 上边框 线段 文件解析技术 算法 坐标 存储计算机程序 存储器 线框 连续性 处理器 可读存储介质 矩形 页面 顶点 规模 空隙 曲线
系统为您推荐了相关专利信息
1
一种具有评估功能的离线渲染系统及方法
离线 渲染系统 校验模块 打包模块 生成可执行文件
2
一种停车位消防感应灭火装置及方法
感应灭火装置 停车位 无人机协同 消防 水带
3
基于快速层归一化注意力SLNA机制的异常检测方法
异常检测方法 非易失性存储介质 检测编码器 适配器 计算机可读指令
4
一种电动车辆的扭矩控制方法
扭矩控制方法 加速度 车辆驱动控制 计算方法 校正
5
胃腺癌预后标志物及临床预后预测模型
预后预测模型 标志物 基因 风险评估模型 随机森林
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号