摘要
本申请公开了一种文档处理方法、计算设备及计算机可读存储介质,所述方法包括:获取目标格式的待处理文档;基于训练好的大语言模型对待处理文档进行层级结构提取,获得待处理文档的层级结构信息;层级结构信息包括多个层级信息以及各层级对应的开始页码与结束页码;根据待处理文档的层级结构信息和预设的拆分策略对待处理文档进行拆分,获得文档拆分结果;文档拆分结果包括至少一个子文档且每个子文档至少关联一个层级信息。如此,能够灵活、准确且高效地拆分文档,自动化和智能化程度高,且省时省力。
技术关键词
层级
大语言模型
格式
可读存储介质
策略
文件扩展名
样本
计算机
处理器
文本
省时省力
书签
校准
存储器
元素
关系
数据