摘要
本发明的实施例提供了一种文档处理方法、装置、设备和介质,涉及数据处理技术领域,方法包括:基于待处理文档的阅读顺序将待处理文档转换为单页图集,对单页图集进行版面分析,将单页图集拆分为单栏图序列,按照阅读顺序依次抽取出单栏图序列中的单栏页面,并按照预设的扫描顺序对相应的单栏页面进行目标检测,以基于检测结果确定出其中的页面元素。对页面元素进行目标识别,以确定页面元素在相应单栏页面中的位置信息,并基于识别结果将页面元素转化为目标格式下的页面对象。基于阅读顺序、扫描顺序以及位置信息将页面对象重新排版,并组装为目标格式下的文档结果,从而提高了文档处理的可靠型。
技术关键词
页面
格式
元素
表格
多模态
图像
序列
排版
远程访问
对象
可读存储介质
字体
信息处理模块
数据处理技术
计算机
可靠型
指令
电子设备
处理器
工作流
系统为您推荐了相关专利信息
生成方法
计划
神经网络模型
处理器
可读存储介质
麻醉深度评估
生命体征数据
多模态
噪声样本
脉搏血氧饱和度
多模态
多尺度特征融合
图像篡改检测
分支
融合特征
关系
知识图谱构建
大语言模型
医疗数据处理技术
多模态
化疗敏感性预测
多模态数据采集
交叉注意力机制
Kubernetes集群
解析单元