摘要
本发明公开了一种基于大语言模型的复杂文本OCR错误识别和修复方法,涉及文本处理技术领域,所述方法包括以下步骤:步骤1、文本预处理模块识别并排除OCR生成的初步文本结果中的非文本区域,以确保剩余内容为纯净的文本输入,得到纯文本数据的文本结果;步骤2、错误识别模块利用大语言模型对所述纯文本数据的文本结果进行实体识别,并为识别出的疑似错误提供修订意见;步骤3、数据库为识别的实体以及错误提供知识召回,为后续修复提供补充;步骤4、错误修复模块通过获取的上下文信息和所述数据库提供的补充数据对所述纯文本数据的文本结果中的错误进行修正,并输出文档。
技术关键词
大语言模型
修复方法
识别模块
文本处理技术
实体
数据
关键字
日期
格式
逻辑
标记
系统为您推荐了相关专利信息
智能模型
构建系统
生成代码
机器学习模型训练
预训练语言模型
异常状态
生理体征数据
告警系统
生成对抗网络
生理参数监测装置