一种基于图像全局信息查询解码的文本识别方法

AITNT
正文
推荐专利
一种基于图像全局信息查询解码的文本识别方法
申请号:CN202411664385
申请日期:2024-11-20
公开号:CN119540960B
公开日期:2025-09-26
类型:发明专利
摘要
本发明公开了一种基于图像全局信息查询解码的文本识别方法。该方法通过引入全局图像信息作为解码器解码条件,在所有时间步中共享,并通过自注意力机制实现对共享的全局图像信息的自适应变换,进而在交叉注意力层中检索每个时间步对应的字符级特征;同时,提出了一系列的编码约束组件,缓解了构建的文本识别器在多语言识别中面临的全局图像特征质量不一致问题。本发明在多语言文本图像识别(中文、英文)和多场景文本图像识别(自然场景、网络文本)等任务中显示出有效性和通用性,取得了显著的非规则文本图像识别性能提升。
技术关键词
图像全局信息 文本识别方法 图像全局特征 字符 文本图像识别 图像特征提取 线性变换矩阵 线性分类器 注意力 文本图像编码 多层感知机 对齐模块 识别标签 解码模块 解码器
系统为您推荐了相关专利信息
1
一种电力地调自动化设备故障智能分析与定位的方法
自动化设备故障 节点 分析故障 专家知识库 启发式搜索算法
2
基于VAD算法的开口率计算方法及装置
VAD算法 率计算方法 语音特征 老师 音频
3
一种应用层模型的信号处理方法及装置
字符串匹配算法 信号处理方法 总线模块 信号处理装置 端口
4
调试口安全访问方法、装置、车载电子设备及存储介质
车载电子设备 密码 加密算法 密钥 字符
5
字符检测方法、装置、存储介质及电子设备
字符检测方法 字符提取方法 端点 字符轮廓 字符识别
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号