摘要
本申请公开了一种PDF文档的格式转换方法、存储介质及计算机设备。该PDF文档的格式转换方法包括:基于预设文档解析算法对原始PDF文档进行解析,以提取原始PDF文档的若干原始内容块;基于各原始内容块的结构类型,提取对应原始内容块中包括的文档内容和版面特征;基于预训练大模型对文档内容和版面特征进行语义转换,得到预设目标格式的若干目标内容块基于各目标内容块对应的原始内容块的位置信息,在目标格式文档中布局各目标内容块。通过上述方法,本申请能够高效、准确地解析PDF文档内容,并将其转化为相应的目标格式文档,该目标格式文档能够保留原始PDF文档的文档内容和版面特征,有效提高转换后文档的完整性和可读性。
技术关键词
格式转换方法
解析算法
文本处理算法
表格
图像处理算法
计算机设备
字符识别
语义分析模型
布局
排版结构
元素
样式
页面
处理器
矩形
系统为您推荐了相关专利信息
边坡复绿
历史气象资料
养护方法
养护系统
图像处理算法
更新方法
关系
节点
实体解析算法
PID控制策略
校验规则
数据存储
设备可读存储介质
数据完整性校验
格式