一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质

正文

推荐专利

申请号：CN202411450004

申请日期：2024-10-17

公开号：CN119272742A

公开日期：2025-01-07

类型：发明专利

摘要

本发明属于PDF文件解析技术领域，提供了一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质，其中，方法包括步骤S1：通过PDF表格识别方法，获取到所有的封闭图形信息，封闭图形信息具有top、bottom、left、right信息；步骤S2：封闭图形分类，并组合成表格的行信息；步骤S3：二阶段进行列信息初始化：将封闭图形分类，并组合成表格的列信息；步骤S4：计算跨行、跨列数；步骤S5：根据计算的跨行、跨列数，完成表格的构建。采用本发明，识别出PDF中的封闭矩形后，可以准确的识别出完整且准确的表格，使得在PDF转Word的场景下，可以准确并完整的转换出表格信息，并且本发明使用纯算法实现，不需要借助任何三方工具，速度具有极大的优势。

技术关键词

表格识别方法遍历方法场景文件解析技术线段识别装置存储计算机程序算法存储器标记基准处理器阶段识别模块可读存储介质坐标线框

系统为您推荐了相关专利信息

一种用于自动驾驶的3D点云目标检测方法、介质及系统

多层感知机语义标签动态卷积神经网络数据重建场景

一种基于工具学习的多模态共情回复生成方法

回复生成方法生成工具聊天机器人字段基座

基于LLM人机交互框架的AUV运动控制方法和系统

人机交互框架运动控制方法仿真平台生成轨迹生成控制指令

基于图像序列的空间推理方法、装置、设备及介质

推理方法相机多模态序列度量

基于AI的智能化IT服务请求分类和分配方法与系统

文本语义语法结构词语对象

一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质

站点导航

APP 下载