摘要
一种文档解析方法及装置。该方法包括:获取待解析的演示文稿,该待解析的演示文稿包括至少两页演示页面;基于该至少两页演示页面包含的元素,确定包含目标结构数据的第一解析数据,该目标结构数据包括参考标题与参考子元素之间的数据结构关系;其中,该参考标题为该至少两页演示页面中包含的标题元素,该参考标题的子元素在视觉呈现顺序上位于该参考标题之后,该子元素包括以下至少一项元素:子标题、正文、图片、表格、链接,该子标题的标题级别低于该参考标题,该参考子元素包含有与该参考标题属于不同演示页面的元素。由此,将属于同一参考标题的子元素数据与该参考标题之间建立关联,有效保留演示文稿中页与页之间的语义信息。
技术关键词
页面
元素
文档解析方法
文本
数据
标记
图片
大语言模型
视觉
可读存储介质
存储计算机程序
解析装置
表格
语义
字体
关系
编辑
基础
系统为您推荐了相关专利信息
意图识别
动态词库
自然语言
模块
多模态特征融合
性能指标数据
数据处理系统
故障检测方法
决策树模型
非易失性存储介质
激光雷达系统
三维风场
激光雷达设备
相干测风激光雷达
同步控制系统