一种场景文本识别方法、装置、设备及介质

AITNT
正文
推荐专利
一种场景文本识别方法、装置、设备及介质
申请号:CN202410726873
申请日期:2024-06-06
公开号:CN118314564B
公开日期:2024-11-22
类型:发明专利
摘要
本发明公开一种场景文本识别方法、装置、设备及介质,方法包括:将待识别图片输入至包括浅层特征提取及缩放模块、局部空间自注意力编码模块、全局编码模块和Transformer解码模块的场景文本识别模型;通过浅层特征提取及缩放模块对待识别图片依次进行卷积、池化及分块处理,获得若干特征图;通过局部空间自注意力编码模块对各个特征图进行局部注意力编码,获得包含局部空间信息的第一特征向量;通过全局编码模块对第一特征向量进行全局编码,获得包含局部空间信息和全局语义信息的第二特征向量;通过Transformer解码模块基于第二特征向量进行语义解码,获得文本序列。本发明能够提高对于不规则文本的识别准确率。
技术关键词
场景文本识别方法 注意力 浅层特征提取 编码模块 缩放模块 前馈神经网络 解码模块 输出特征 图片 多层感知机 缩放特征 分块 语义 可读存储介质 输出模块
系统为您推荐了相关专利信息
1
一种基于改进YOLO v9的商用车的微小物体检测方法
融合特征 多级特征 物体检测方法 物体检测系统 局部空间特征
2
一种基于Mamba的轻量级眼底血管图像分割模型
图像分割模型 状态空间模型 通道注意力机制 解码器 特征提取模块
3
基于预训练语言模型重编程的脑电信号分类方法
预训练语言模型 编码模块 相位特征 重编程 分类器
4
基于多语言跨境的AI客服训练方法及系统
多语言 意图识别模型 语言知识库 客服 混合神经网络模型
5
一种基于云边协同的电力电缆智能故障诊断与定位方法、系统及电子设备
智能故障诊断 蝙蝠算法优化 定位方法 电力电缆故障 信号
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号