一种PDF中表格的提取解析方法

AITNT
正文
推荐专利
一种PDF中表格的提取解析方法
申请号:CN202411683420
申请日期:2024-11-22
公开号:CN119759355B
公开日期:2025-09-02
类型:发明专利
摘要
本发明公开了一种PDF中表格的提取解析方法,所述方法包括:读取PDF文件,将PDF中的指令读取到内存中;将指令中的内容转化为基本元素;对基本元素进行多轮聚合操作,得到聚合的对象;对聚合的对象计算嵌套关系,并解析聚合的对象的类型,确定类型为表格的对象;对类型为表格的对象进行一次表格解析,得到表格的所有单元格。本发明实现了高准确度的PDF表格提取和解析。
技术关键词
线段 解析方法 表格 判断算法 对象 矩形 去重算法 元素 深度优先搜索 指令 嵌套 共线 内存 关系 文本 三角形 端点 终点 坐标
系统为您推荐了相关专利信息
1
一种双目相机及生物识别设备
距离传感器 双目相机 生物识别设备 深度值 图像分割
2
基于工业物联网的园区多源异构数据分析方法及系统
多源异构数据分析 工业物联网 监管设备 时间段 对象
3
基于大语言模型的文档型应答方法及问答机器人
大语言模型 问答机器人 答案 模板 文本
4
一种大语言模型逻辑冲突检测能力的评估方法与装置
逻辑 概念 推理规则 模式 大语言模型
5
针对管控区域的对象进出检测方法、装置、设备、介质及产品
进出检测方法 视频帧 对象 时间段 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号