一种文档布局重建方法、装置和系统及存储介质

AITNT
正文
推荐专利
一种文档布局重建方法、装置和系统及存储介质
申请号:CN202411872346
申请日期:2024-12-18
公开号:CN119962479A
公开日期:2025-05-09
类型:发明专利
摘要
本发明公开了一种文档布局重建方法、装置和系统及存储介质,涉及计算机视觉及自然语言处理领域,包括:输入原始文档,并将原始文档分页转为文档图像;定位所述文档图像中的各版面元素区域并进行分类,得到每个版面元素的类别及位置;判断对应分页能否直接进行代码解析且是否未包含表格;根据每个版面元素的位置,将每个版面元素的类别与文本相关信息进行匹配,对每个版面元素进行排序,再针对类别为文档标题以及层级标题的版面元素增加层级信息,由此实现具有目录结构的文档布局重建。该方法结合图像处理、机器学习和深度学习等算法,通过理解和提取文档的逻辑结构和物理布局,实现对文档结构的高效识别和重建,为自动化文档处理和信息提取提供有力支持,具有通用、高效、高精度的特点。
技术关键词
实例分割算法 布局 元素 层级 文本行 表格 深度学习网络模型 关系 分析单元 目录 重建系统 计算机视觉 节点 图表 逻辑 自然语言 处理器 图像处理
系统为您推荐了相关专利信息
1
一种建筑运行碳排放计量监测管理方法及系统
排放量 监测传感器 建筑 监测管理方法 仿真模型
2
一种基于自动化调度的私域问答方法及系统
问答方法 排序模型 文本 数据 生成用户
3
矿用PLC系统构建方法、装置及矿用PLC系统
PLC系统 芯片测试数据 协议转换电路 IO模块结构 组态
4
一种基于迭代伪全监督训练的弱监督目标检测方法及系统
YOLO模型 代表 坐标 策略 元素
5
一种基于强化学习微调的大型语言模型优化方法
语言模型优化方法 矩阵 分片 元素 变量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号