摘要
本发明公开一种场景文本识别方法、装置、设备及介质,方法包括:将待识别图片输入至包括浅层特征提取及缩放模块、局部空间自注意力编码模块、全局编码模块和Transformer解码模块的场景文本识别模型;通过浅层特征提取及缩放模块对待识别图片依次进行卷积、池化及分块处理,获得若干特征图;通过局部空间自注意力编码模块对各个特征图进行局部注意力编码,获得包含局部空间信息的第一特征向量;通过全局编码模块对第一特征向量进行全局编码,获得包含局部空间信息和全局语义信息的第二特征向量;通过Transformer解码模块基于第二特征向量进行语义解码,获得文本序列。本发明能够提高对于不规则文本的识别准确率。
技术关键词
场景文本识别方法
注意力
浅层特征提取
编码模块
缩放模块
前馈神经网络
解码模块
输出特征
图片
多层感知机
缩放特征
分块
语义
可读存储介质
输出模块
系统为您推荐了相关专利信息
融合特征
多级特征
物体检测方法
物体检测系统
局部空间特征
图像分割模型
状态空间模型
通道注意力机制
解码器
特征提取模块
预训练语言模型
编码模块
相位特征
重编程
分类器
多语言
意图识别模型
语言知识库
客服
混合神经网络模型
智能故障诊断
蝙蝠算法优化
定位方法
电力电缆故障
信号