摘要
本发明公开了一种基于全局向量的多粒度训练的场景文本识别方法及系统,涉及场景文本识别技术领域。该方法包括步骤:获取待识别图像,对待识别图像进行裁剪得到包含文本的部分;利用场景文本识别模型对包含文本的部分进行场景识别,得到识别结果,其中,阶段性的对场景文本识别模型进行训练,步骤包括:将训练样本进行预处理,利用编码器将预处理后的样本进行编码,提取包含多粒度信息的全局向量,利用解码器对全局向量进行解码,得到识别结果。本发明能够更好地利用图像不同粒度的信息,从易到难地充分学习图像的信息,对于复杂文本和弯曲文本也能取得较好的效果。
技术关键词
场景文本识别方法
解码器
图像
文本识别系统
编码器
多粒度特征
全局平均池化
识别模块
模型训练模块
数据获取模块
注意力机制
非线性
序列