一种基于大语言模型的复杂文本OCR错误识别和修复方法

正文

推荐专利

申请号：CN202510262345

申请日期：2025-03-06

公开号：CN120106056A

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开了一种基于大语言模型的复杂文本OCR错误识别和修复方法，涉及文本处理技术领域，所述方法包括以下步骤：步骤1、文本预处理模块识别并排除OCR生成的初步文本结果中的非文本区域，以确保剩余内容为纯净的文本输入，得到纯文本数据的文本结果；步骤2、错误识别模块利用大语言模型对所述纯文本数据的文本结果进行实体识别，并为识别出的疑似错误提供修订意见；步骤3、数据库为识别的实体以及错误提供知识召回，为后续修复提供补充；步骤4、错误修复模块通过获取的上下文信息和所述数据库提供的补充数据对所述纯文本数据的文本结果中的错误进行修正，并输出文档。

技术关键词

大语言模型修复方法识别模块文本处理技术实体数据关键字日期格式逻辑标记

系统为您推荐了相关专利信息

一种基于知识图谱的汽车供应链风险识别方法

风险识别方法节点实体图谱汽车

一种支持规则链的智能模型构建系统

智能模型构建系统生成代码机器学习模型训练预训练语言模型

使用半边进行基于机器学习的网格生成

顶点处理器协作内容网格人工智能AI模型

一种纯滚接触锥齿轮的齿面修形优化方法

传动误差坐标系小轮曲线锥齿轮技术

一种基于数据分析的独居老人安全监护与告警方法及系统

异常状态生理体征数据告警系统生成对抗网络生理参数监测装置

一种基于大语言模型的复杂文本OCR错误识别和修复方法

站点导航

APP 下载