一种基于图像全局信息查询解码的文本识别方法

正文

推荐专利

申请号：CN202411664385

申请日期：2024-11-20

公开号：CN119540960B

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了一种基于图像全局信息查询解码的文本识别方法。该方法通过引入全局图像信息作为解码器解码条件，在所有时间步中共享，并通过自注意力机制实现对共享的全局图像信息的自适应变换，进而在交叉注意力层中检索每个时间步对应的字符级特征；同时，提出了一系列的编码约束组件，缓解了构建的文本识别器在多语言识别中面临的全局图像特征质量不一致问题。本发明在多语言文本图像识别(中文、英文)和多场景文本图像识别(自然场景、网络文本)等任务中显示出有效性和通用性，取得了显著的非规则文本图像识别性能提升。

技术关键词

图像全局信息文本识别方法图像全局特征字符文本图像识别图像特征提取线性变换矩阵线性分类器注意力文本图像编码多层感知机对齐模块识别标签解码模块解码器

系统为您推荐了相关专利信息

一种电力地调自动化设备故障智能分析与定位的方法

自动化设备故障节点分析故障专家知识库启发式搜索算法

基于VAD算法的开口率计算方法及装置

VAD算法率计算方法语音特征老师音频

一种应用层模型的信号处理方法及装置

字符串匹配算法信号处理方法总线模块信号处理装置端口

调试口安全访问方法、装置、车载电子设备及存储介质

车载电子设备密码加密算法密钥字符

字符检测方法、装置、存储介质及电子设备

字符检测方法字符提取方法端点字符轮廓字符识别

一种基于图像全局信息查询解码的文本识别方法

站点导航

APP 下载