摘要
本公开实施例涉及一种文本识别方法、装置、设备及介质,其中该方法包括:获取待识别文本图像;将待识别文本图像输入多模态识别模型中进行识别,得到已知字符结果和第一未知字符结果;基于第一未知字符结果从待识别文本图像中提取未知字符图像;将未知字符图像输入字符识别模型中,得到第二未知字符结果;将已知字符结果和第二未知字符结果确定为待识别文本图像的识别结果。本公开通过多模态识别模型定位未知字符之后进一步利用字符识别模型对未知字符进行矫正,充分结合大小模型的能力,有效实现未知字符的精确识别,并且既能保证文本识别的准确性和鲁棒性,又能有效降低模型优化的训练成本。
技术关键词
字符识别模型
文本识别方法
图像
多模态
样本
文本识别装置
基础
识别模块
电子设备
处理器
可读存储介质
指令
存储器
鲁棒性
数据