摘要
本申请公开了一种文档解析方法、设备、介质及计算机程序产品,涉及数据处理技术领域,包括:获取待解析文档,对待解析文档进行布局检测,得到元素块;根据元素块的布局元素,确定元素块对应的内容提取规则;通过内容提取规则,处理元素块,得到元素块的初步内容;利用大语言模型,纠正初步内容,得到目标文档。本申请通过划分不同的元素块,对各个元素块采取不同的内容提取方法,并利用大语言模型对提取到的内容进行纠正,从而提高了文档解析的正确性。
技术关键词
文档解析方法
元素
大语言模型
计算机程序产品
布局
BERT模型
光学字符识别技术
内容提取方法
图片
分段
校正
语义特征
解析设备
数据处理技术
样式
处理器
标志
可读存储介质
存储器
转换器
系统为您推荐了相关专利信息
太阳能空气源热泵
供热控制方法
历史气象数据
耦合供热系统
仿真模型