摘要
本发明涉及中文处理技术领域,且公开了一种基于海明距离提升OCR中文识别准确率的方法,包括对输入的文本进行预处理,以提高后续字符分割和识别的准确性;对每个字符和字进行特征提取,包括局部二值模式,这些特征有助于区分不同的字符和字形,并将提取的特征转化为特征向量,用于后续的相似度计算;对特征向量使用海明距离计算字符之间的相似度。本发明首次将海明距离的概念引入OCR中文识别领域,通过计算识别结果与备选结果之间的海明距离来判断识别结果的准确性,特别是在处理不同的字符和字形时,识别准确率得到显著提升,利用海明距离对字符相似性的有效度量,结合前沿的图像处理和机器学习技术,能够显著提升OCR中文识别的准确率和鲁棒性。
技术关键词
字符
局部二值模式
文本区域检测
OCR系统
综合评估系统
像素
特征提取方法
机器学习技术
笔画特征
图像块
覆盖系统
邻域
错误检测
坐标
算法
图像处理
定义
数据
系统为您推荐了相关专利信息
业务数据处理方法
光学字符识别技术
文本
自然语言
业务数据处理装置
表面纹理特征
结构轮廓
单元式幕墙
图像数据集合
参数
园林植物
价值评估方法
图像数据预处理
数据特征提取
图像采集模块