一种文本识别方法、装置、设备及介质

正文

推荐专利

一种文本识别方法、装置、设备及介质

申请号：CN202411823949

申请日期：2024-12-11

公开号：CN119672733A

公开日期：2025-03-21

类型：发明专利

摘要

本公开实施例涉及一种文本识别方法、装置、设备及介质，其中该方法包括：获取待识别文本图像；将待识别文本图像输入多模态识别模型中进行识别，得到已知字符结果和第一未知字符结果；基于第一未知字符结果从待识别文本图像中提取未知字符图像；将未知字符图像输入字符识别模型中，得到第二未知字符结果；将已知字符结果和第二未知字符结果确定为待识别文本图像的识别结果。本公开通过多模态识别模型定位未知字符之后进一步利用字符识别模型对未知字符进行矫正，充分结合大小模型的能力，有效实现未知字符的精确识别，并且既能保证文本识别的准确性和鲁棒性，又能有效降低模型优化的训练成本。

技术关键词

字符识别模型文本识别方法图像多模态样本文本识别装置基础识别模块电子设备处理器可读存储介质指令存储器鲁棒性数据

一种文本识别方法、装置、设备及介质

站点导航

APP 下载