摘要
本申请公开了一种文本识别方法、设备及存储介质,该文本识别方法包括:对待识别图像进行图像特征提取,得到图像特征向量;计算图像特征向量中各个特征属于文本区域的概率,基于图像特征向量中各个特征属于文本区域的概率确定文本关注区域;对文本关注区域进行位置编码得到查询向量,提取文本关注区域对应的图像特征得到窗口特征向量;基于查询向量和窗口特征向量解码文本类别和文本位置,得到待识别图像中待识别文本的文本识别结果。将需要关注的区域位置信息与需要关注区域的图像信息整合到一起传入解码器,可以减少查询向量与无关背景信息之间地交互,降低图像中其他无关区域特征对文本解码的干扰,提高最终输出的文本识别结果的准确性。
技术关键词
图像特征向量
文本识别方法
文本识别模型
注意力
图像特征提取
解码器
编码器
区域位置信息
标签
可读存储介质
多层感知机
坐标
电子设备
转化器
处理器
系统为您推荐了相关专利信息
轴承故障诊断方法
故障诊断模型
视觉
故障类别
数字孪生模型
迁移学习模型
分类器
挖掘算法
核苷酸序列数据
样本
信息技术咨询服务
逻辑回归模型
管理方法
客户
关键词
智能装饰设计系统
多模态数据融合
特征提取模块
注意力机制
数据采集模块