摘要
本申请公开了OCR识别结果的校正方法、装置、设备以及计算机存储介质。所述校正方法包括:获取OCR识别后的待校正文本,待校正文本包括:OCR识别错误导致的乱码字符、字符混淆错误或语法错误中的一种;构建语义校正指令模板,语义校正指令模板包括:任务定义、规则定义以及格式约束目标;将待校正文本与语义校正指令模板输入大语言模型,并通过大语言模型输出校正后的文本结果,大语言模型为预训练语言模型。本申请能够针对OCR识别错误导致的乱码字符、字符混淆错误或语法错误进行精准校正,有效提升文本的准确性及可用性,为后续文本处理提供高质量基础数据;本申请可以适应多种不同格式文档及多语言混合文本场景,节约维护成本,同时提高校正效率。
技术关键词
大语言模型
校正方法
训练语言模型
语义
字符
定义
校正装置
段落结构
模板
计算机存储介质
格式
指令
文本校正
存储计算机程序
校正设备
字段
纠错
处理器
系统为您推荐了相关专利信息
语义分割模型
物体
图像分割方法
计算机设备
轻量型
车辆控制指令
问答方法
大语言模型
FAQ问答
预训练模型
报告生成方法
大语言模型
序列特征
影像
生成指令
数控机床刀具
路径规划方法
预训练语言模型
点云模型
微调技术