摘要
本发明公开一种混合手写体与印刷体的光学字符识别方法及系统,涉及计算机视觉与文档分析技术领域,采用手写体OCR模型优对输入文档图像进行手写体区域检测,并分为印刷体内联手写体、独立手写段落和表格手写体。本发明通过双通道模型架构和细粒度分类策略,解决检测精度低、模型泛化性差的问题,实现高效、轻量化的混合文本解析。改进的YOLOv12‑L模型基于空间布局、书写特征分类,可应对多样化文档场景,减少因场景差异导致的识别失效。通过分类优化,可针对性解决混合场景下的误检、复杂排版的语义断裂及表格干扰等核心问题,实现端到端手写识别的场景自适应。
技术关键词
光学字符识别方法
印刷体
注意力机制
多任务损失函数
文本识别
高层语义特征
书写特征
光学字符识别系统
表格
内存压缩技术
文档分析技术
内存访问效率
双通道模型
细粒度分类
场景
复杂度
图像
分层特征
多尺度特征
系统为您推荐了相关专利信息
图像生成方法
计算机可执行指令
交叉注意力机制
区域位置信息
查询特征
预训练模型
分子
无监督学习
迁移学习模型
疏水相互作用
工业控制系统
深度学习方法
网络模块
物理
滑动窗口
口腔CBCT图像
多任务学习网络
分割方法
两阶段
多任务损失函数