基于大语言模型的多格式文档表格数据提取与对齐方法

AITNT
正文
推荐专利
基于大语言模型的多格式文档表格数据提取与对齐方法
申请号:CN202411688851
申请日期:2024-11-25
公开号:CN119203958B
公开日期:2025-04-08
类型:发明专利
摘要
本发明公开了一种基于大语言模型的多格式文档表格数据提取与对齐方法,包括对可编辑文档/不可编辑文档进行表格提取,得到HTML格式的表格;基于大语言模型对HTML格式的表格进行分析,筛选出有用表格;采用大语言模型对筛选出的有用表格按照设定的标准字段进行对齐。本发明将基于人工规则的表格数据对齐标准化问题转化为基于大语言模型的语义识别的数据提取与对齐标准化问题,能够有效处理多类文档中的超长表格、跨页表格以及表格格式化问题,提取完整表格,并实现表格的标准化字段入库。
技术关键词
表格 大语言模型 对齐方法 表头 字段 数据 标签 图片 坐标 布局 文本 页面 语义 格式化 索引 数值 标记 包裹 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号