摘要
本发明公开一种基于大模型的表格解析方法,通过多尺度算法检测非结构化文档中的非结构化表格区域;通过视觉检测算法将非结构化表格转换为结构化表格;通过光学字符识别技术识别并提取非结构化表格中各单元格内的非结构化数据为结构化数据,结合视觉检测算法建立非结构化表格及其各单元格内的非结构化数据的关联关系;将上述对应关系的非结构化表格及其数据、结构化表格及其数据为训练样本,利用低秩微调技术微调训练通用大模型,得到表格大模型;通过表格大模型将待解析的非结构化表格及其数据解析为结构化表格及其数据。本发明能够提高表格解析精度,避免表格数据与表格位置出现串行串列等错位而不对应的问题。
技术关键词
表格解析方法
视觉检测算法
非结构化文档
光学字符识别技术
数据
微调技术
文本
多尺度
建立关联关系
变量
软件
指令
错位
逻辑
标记
精度
系统为您推荐了相关专利信息
健康分析方法
风电变桨
数据采集频率
支持向量机模型
寿命预测模型
判定参数
水流
机器学习方法
剩余油饱和度
权重模型
金属氧化物掺杂
支持向量机
训练机器学习模型
随机森林
p型掺杂剂