基于n-gram模型的中文文档的OCR后处理方法、装置及可读介质

AITNT
正文
推荐专利
基于n-gram模型的中文文档的OCR后处理方法、装置及可读介质
申请号:CN202411463715
申请日期:2024-10-21
公开号:CN119339393B
公开日期:2025-12-05
类型:发明专利
摘要
本发明公开了一种基于n‑gram模型的中文文档的OCR后处理方法、装置及可读介质,该方法先利用OCR识别得到每个文本框的平均识别置信度、位置和n‑gram模型的评分判断是否需要进行文本框合并,如果需要进行文本框合并,则再进一步判断合并后文本框的文字结果是否需要采用形近字库中的形近字进行替换,如果替换后的文字结果的n‑gram模型的评分显著提升,则将替换后的文字结果作为OCR识别结果进行输出,从而实现对识别结果的优化,提高识别的准确度。
技术关键词
识别置信度 后处理方法 分词 字符 顶点 积层 模拟退火算法 后处理装置 处理器 计算机程序产品 输出模块 识别模块 存储装置 可读存储介质 坐标 电子设备 字典 数据
系统为您推荐了相关专利信息
1
一种文件系统的自动化文件数据清洗方法
数据清洗方法 复杂度 文件系统 分词 基准
2
一种基于多模态算法和探地雷达的地下管线参数检测方法、装置和设备
地下管线参数 文本 多模态 神经网络模型 样本
3
用于精准育种的动态多模态生物序列分阶段预训练系统及方法
预训练系统 关系分析方法 预训练方法 多模态 分阶段
4
基于多知识混合召回的智能体知识检索方法、装置及介质
资源库 术语 知识检索方法 配置页面 表达式
5
几何处理流水线、图形处理核心、处理器及顶点缓存方法
图元 流水线单元 索引 顶点着色器 组装流水线
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号