摘要
本发明公开了一种基于大语言模型的多格式文档表格数据提取与对齐方法,包括对可编辑文档/不可编辑文档进行表格提取,得到HTML格式的表格;基于大语言模型对HTML格式的表格进行分析,筛选出有用表格;采用大语言模型对筛选出的有用表格按照设定的标准字段进行对齐。本发明将基于人工规则的表格数据对齐标准化问题转化为基于大语言模型的语义识别的数据提取与对齐标准化问题,能够有效处理多类文档中的超长表格、跨页表格以及表格格式化问题,提取完整表格,并实现表格的标准化字段入库。
技术关键词
表格
大语言模型
对齐方法
表头
字段
数据
标签
图片
坐标
布局
文本
页面
语义
格式化
索引
数值
标记
包裹
关系