摘要
本申请公开了一种文本识别方法、装置、电子设备,属于文本识别技术领域。所述方法包括:预先训练的文本识别模型的特征提取模块,对文本图像进行深层多尺度特征提取,获取多尺度图像特征;通过文本识别模型的编码器,对多尺度图像特征进行编码处理,得到编码特征;通过文本识别模型的区域选择模块,对编码特征进行文本行区域选择处理,得到文本行对应的第一查询向量;通过文本识别模型的解码器,基于第一查询向量和编码特征进行逐层解码处理,得到第二查询向量;通过文本识别模型的多个不同第一预测头,对第二查询向量进行文本相关信息预测,得到文本信息预测结果。本方法结合视觉和语义等多模态特征进行解码,提升了文本识别的准确度。
技术关键词
文本识别模型
编码特征
文本行
文本识别方法
多尺度特征提取
解码器
融合多模态特征
语义信息提取
特征提取模块
掩膜
图像
文本识别技术
信息编码
系统为您推荐了相关专利信息
情绪识别模型
情绪识别方法
视频
智能穿戴设备
图像编码
非线性映射关系
抗体复合物
神经营养因子
外周血
检测磁场
气体泄露检测方法
甲烷
高光谱图像数据
细化器
查询特征
图像篡改区域
注意力
交互网络
焦点损失函数
模块
图像生成模型
样本
图像生成方法
图像语义提取
编码器