一种基于大语言模型的复杂文本OCR错误识别和修复方法

AITNT
正文
推荐专利
一种基于大语言模型的复杂文本OCR错误识别和修复方法
申请号:CN202510262345
申请日期:2025-03-06
公开号:CN120106056A
公开日期:2025-06-06
类型:发明专利
摘要
本发明公开了一种基于大语言模型的复杂文本OCR错误识别和修复方法,涉及文本处理技术领域,所述方法包括以下步骤:步骤1、文本预处理模块识别并排除OCR生成的初步文本结果中的非文本区域,以确保剩余内容为纯净的文本输入,得到纯文本数据的文本结果;步骤2、错误识别模块利用大语言模型对所述纯文本数据的文本结果进行实体识别,并为识别出的疑似错误提供修订意见;步骤3、数据库为识别的实体以及错误提供知识召回,为后续修复提供补充;步骤4、错误修复模块通过获取的上下文信息和所述数据库提供的补充数据对所述纯文本数据的文本结果中的错误进行修正,并输出文档。
技术关键词
大语言模型 修复方法 识别模块 文本处理技术 实体 数据 关键字 日期 格式 逻辑 标记
系统为您推荐了相关专利信息
1
一种基于知识图谱的汽车供应链风险识别方法
风险识别方法 节点 实体 图谱 汽车
2
一种支持规则链的智能模型构建系统
智能模型 构建系统 生成代码 机器学习模型训练 预训练语言模型
3
使用半边进行基于机器学习的网格生成
顶点 处理器 协作内容 网格 人工智能AI模型
4
一种纯滚接触锥齿轮的齿面修形优化方法
传动误差 坐标系 小轮 曲线 锥齿轮技术
5
一种基于数据分析的独居老人安全监护与告警方法及系统
异常状态 生理体征数据 告警系统 生成对抗网络 生理参数监测装置
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号