基于全局向量的多粒度训练的场景文本识别方法及系统

正文

推荐专利

申请号：CN202411844886

申请日期：2024-12-16

公开号：CN119314180B

公开日期：2025-04-08

类型：发明专利

摘要

本发明公开了一种基于全局向量的多粒度训练的场景文本识别方法及系统，涉及场景文本识别技术领域。该方法包括步骤：获取待识别图像，对待识别图像进行裁剪得到包含文本的部分；利用场景文本识别模型对包含文本的部分进行场景识别，得到识别结果，其中，阶段性的对场景文本识别模型进行训练，步骤包括：将训练样本进行预处理，利用编码器将预处理后的样本进行编码，提取包含多粒度信息的全局向量，利用解码器对全局向量进行解码，得到识别结果。本发明能够更好地利用图像不同粒度的信息，从易到难地充分学习图像的信息，对于复杂文本和弯曲文本也能取得较好的效果。

技术关键词

场景文本识别方法解码器图像文本识别系统编码器多粒度特征全局平均池化识别模块模型训练模块数据获取模块注意力机制非线性序列

基于全局向量的多粒度训练的场景文本识别方法及系统

站点导航

APP 下载