摘要
本发明公开了一种文档智能解析方法及系统,由文档智能解析系统执行,所述方法包括以下步骤:采用深度学习模型对PDF页面进行版面分析;采用递归算法对所述块列表进行自底向上合并;对所述二叉树结构进行平衡性优化;采用前序遍历方式输出所述处理后的二叉树结构的结果。通过采用深度学习模型进行版面分析,能够有效识别并处理多栏布局、图文混排、表格、列表等各种复杂排版格式,通过树结构优化模块确保语义上连续的文本块在树结构中也保持连续性,通过加入全局语义纠错模块进行全局文档语义表示学习对初步结构进行自适应调整与纠错,从而消除深层歧义、修复逻辑错误并最大化最终解析结果在语义层面与人类阅读逻辑的一致性。
技术关键词
智能解析方法
二叉树结构
智能解析系统
深度学习模型
遍历方式
递归算法
纠错模块
逻辑
文本
结构化数据格式
列表
连续性
广度优先遍历
跨节点
卷积神经网络模型
深度优先遍历
语义关联度
图文混排
页面
系统为您推荐了相关专利信息
视频分类方法
元素
电视设备
互动方法
视频分类装置
机械故障诊断方法
分层强化学习
故障诊断模型
动态
混合深度学习模型
民意调查方法
深度学习模型
关键词
数据调查技术
数据分析软件
异构计算环境
资源管理系统
智能调度算法
深度学习模型
效能提升方法