摘要
本发明公开了一种基于n‑gram模型的中文文档的OCR后处理方法、装置及可读介质,该方法先利用OCR识别得到每个文本框的平均识别置信度、位置和n‑gram模型的评分判断是否需要进行文本框合并,如果需要进行文本框合并,则再进一步判断合并后文本框的文字结果是否需要采用形近字库中的形近字进行替换,如果替换后的文字结果的n‑gram模型的评分显著提升,则将替换后的文字结果作为OCR识别结果进行输出,从而实现对识别结果的优化,提高识别的准确度。
技术关键词
识别置信度
后处理方法
分词
字符
顶点
积层
模拟退火算法
后处理装置
处理器
计算机程序产品
输出模块
识别模块
存储装置
可读存储介质
坐标
电子设备
字典
数据
系统为您推荐了相关专利信息
预训练系统
关系分析方法
预训练方法
多模态
分阶段