LLM驱动的复杂报表OCR错误自校正方法及系统

AITNT
正文
推荐专利
LLM驱动的复杂报表OCR错误自校正方法及系统
申请号:CN202510902148
申请日期:2025-07-01
公开号:CN120412000B
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了LLM驱动的复杂报表OCR错误自校正方法及系统,包括如下步骤:S1、获取复杂报表图像数据,执行OCR处理,构建原始字段数据集;S2、提取上下文信息,识别语义矛盾字段,生成待校正字段集合;S3、指针生成网络生成多个字段修正候选,形成候选字段集合;S4、构建多臂老虎机模型,选择最优字段修正结果,形成修正字段输出集合;S5、执行版式分析,提取图表标题字段、图例字段与数据区域文本;S6、图表结构语义一致性机制,生成图表标题字段的修正字段结果;S7、字段还原与版式重建,输出结构化报表数据。本发明通过融合大语言模型、指针生成网络与多臂老虎机机制,实现了复杂报表中字段的智能纠错与结构化重建。
技术关键词
字段 校正方法 报表 多臂老虎机 执行光学字符识别 语义 生成图表 指针 大语言模型 文本 拉杆 因子 网络 二维图像数据 归因 解码器
系统为您推荐了相关专利信息
1
施工辅助系统和方法
地理信息数据 施工辅助系统 矢量地图 矢量瓦片 地图样式
2
基于多模态语义融合的BOM解析方法、系统、设备及介质
BERT模型 解析方法 强化学习算法 多模态 语义特征提取
3
一种矿井大数据处理系统搭建方法、装置、设备及存储介质
大数据处理系统 矿井 业务系统 指标 报表需求
4
一种保障房申请资格审核方法、装置及可读存储介质
资格审核方法 大语言模型 语义 字段 关键字
5
业务数据处理方法、装置、设备及存储介质
业务请求信息 业务数据处理方法 计算机执行指令 终端设备 数据预测模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号