一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质

AITNT
正文
推荐专利
一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质
申请号:CN202411450004
申请日期:2024-10-17
公开号:CN119272742A
公开日期:2025-01-07
类型:发明专利
摘要
本发明属于PDF文件解析技术领域,提供了一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质,其中,方法包括步骤S1:通过PDF表格识别方法,获取到所有的封闭图形信息,封闭图形信息具有top、bottom、left、right信息;步骤S2:封闭图形分类,并组合成表格的行信息;步骤S3:二阶段进行列信息初始化:将封闭图形分类,并组合成表格的列信息;步骤S4:计算跨行、跨列数;步骤S5:根据计算的跨行、跨列数,完成表格的构建。采用本发明,识别出PDF中的封闭矩形后,可以准确的识别出完整且准确的表格,使得在PDF转Word的场景下,可以准确并完整的转换出表格信息,并且本发明使用纯算法实现,不需要借助任何三方工具,速度具有极大的优势。
技术关键词
表格识别方法 遍历方法 场景 文件解析技术 线段 识别装置 存储计算机程序 算法 存储器 标记 基准 处理器 阶段 识别模块 可读存储介质 坐标 线框
系统为您推荐了相关专利信息
1
一种用于自动驾驶的3D点云目标检测方法、介质及系统
多层感知机 语义标签 动态卷积神经网络 数据 重建场景
2
一种基于工具学习的多模态共情回复生成方法
回复生成方法 生成工具 聊天机器人 字段 基座
3
基于LLM人机交互框架的AUV运动控制方法和系统
人机交互框架 运动控制方法 仿真平台 生成轨迹 生成控制指令
4
基于图像序列的空间推理方法、装置、设备及介质
推理方法 相机 多模态 序列 度量
5
基于AI的智能化IT服务请求分类和分配方法与系统
文本 语义 语法结构 词语 对象
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号