摘要
本发明公开了一种基于图像全局信息查询解码的文本识别方法。该方法通过引入全局图像信息作为解码器解码条件,在所有时间步中共享,并通过自注意力机制实现对共享的全局图像信息的自适应变换,进而在交叉注意力层中检索每个时间步对应的字符级特征;同时,提出了一系列的编码约束组件,缓解了构建的文本识别器在多语言识别中面临的全局图像特征质量不一致问题。本发明在多语言文本图像识别(中文、英文)和多场景文本图像识别(自然场景、网络文本)等任务中显示出有效性和通用性,取得了显著的非规则文本图像识别性能提升。
技术关键词
图像全局信息
文本识别方法
图像全局特征
字符
文本图像识别
图像特征提取
线性变换矩阵
线性分类器
注意力
文本图像编码
多层感知机
对齐模块
识别标签
解码模块
解码器
系统为您推荐了相关专利信息
自动化设备故障
节点
分析故障
专家知识库
启发式搜索算法
字符串匹配算法
信号处理方法
总线模块
信号处理装置
端口
字符检测方法
字符提取方法
端点
字符轮廓
字符识别