PDF文档的格式转换方法、存储介质及计算机设备

AITNT
正文
推荐专利
PDF文档的格式转换方法、存储介质及计算机设备
申请号:CN202510039892
申请日期:2025-01-10
公开号:CN120146000A
公开日期:2025-06-13
类型:发明专利
摘要
本申请公开了一种PDF文档的格式转换方法、存储介质及计算机设备。该PDF文档的格式转换方法包括:基于预设文档解析算法对原始PDF文档进行解析,以提取原始PDF文档的若干原始内容块;基于各原始内容块的结构类型,提取对应原始内容块中包括的文档内容和版面特征;基于预训练大模型对文档内容和版面特征进行语义转换,得到预设目标格式的若干目标内容块基于各目标内容块对应的原始内容块的位置信息,在目标格式文档中布局各目标内容块。通过上述方法,本申请能够高效、准确地解析PDF文档内容,并将其转化为相应的目标格式文档,该目标格式文档能够保留原始PDF文档的文档内容和版面特征,有效提高转换后文档的完整性和可读性。
技术关键词
格式转换方法 解析算法 文本处理算法 表格 图像处理算法 计算机设备 字符识别 语义分析模型 布局 排版结构 元素 样式 页面 处理器 矩形
系统为您推荐了相关专利信息
1
轨道交通领域的RAG数据解析方法、装置、设备、介质
表格 数据解析方法 格式 坐标 元素
2
一种基于多格式解析的缺陷文件与图像编号关联方法
置信度数值 格式 图片 置信度阈值 校验算法
3
一种干旱河谷边坡复绿自动简易养护方法及系统
边坡复绿 历史气象资料 养护方法 养护系统 图像处理算法
4
一种基于图神经网络的知识图谱自动构建与更新方法
更新方法 关系 节点 实体解析算法 PID控制策略
5
一种工程造价数据存储处理方法及装置
校验规则 数据存储 设备可读存储介质 数据完整性校验 格式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号