基于n-gram模型的中文文档的OCR后处理方法、装置及可读介质

正文

推荐专利

申请号：CN202411463715

申请日期：2024-10-21

公开号：CN119339393B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种基于n‑gram模型的中文文档的OCR后处理方法、装置及可读介质，该方法先利用OCR识别得到每个文本框的平均识别置信度、位置和n‑gram模型的评分判断是否需要进行文本框合并，如果需要进行文本框合并，则再进一步判断合并后文本框的文字结果是否需要采用形近字库中的形近字进行替换，如果替换后的文字结果的n‑gram模型的评分显著提升，则将替换后的文字结果作为OCR识别结果进行输出，从而实现对识别结果的优化，提高识别的准确度。

技术关键词

识别置信度后处理方法分词字符顶点积层模拟退火算法后处理装置处理器计算机程序产品输出模块识别模块存储装置可读存储介质坐标电子设备字典数据

系统为您推荐了相关专利信息

一种文件系统的自动化文件数据清洗方法

数据清洗方法复杂度文件系统分词基准

一种基于多模态算法和探地雷达的地下管线参数检测方法、装置和设备

地下管线参数文本多模态神经网络模型样本

用于精准育种的动态多模态生物序列分阶段预训练系统及方法

预训练系统关系分析方法预训练方法多模态分阶段

基于多知识混合召回的智能体知识检索方法、装置及介质

资源库术语知识检索方法配置页面表达式

几何处理流水线、图形处理核心、处理器及顶点缓存方法

图元流水线单元索引顶点着色器组装流水线

基于n-gram模型的中文文档的OCR后处理方法、装置及可读介质

站点导航

APP 下载