文本识别方法、装置、可读介质、电子设备及程序产品

正文

推荐专利

申请号：CN202411826878

申请日期：2024-12-11

公开号：CN119693958A

公开日期：2025-03-25

类型：发明专利

摘要

一种文本识别方法、装置、可读介质、电子设备及程序产品，所述文本识别方法包括：确定文本识别模型针对目标图像的第一文本识别结果，所述文本识别模型用于识别输入的图像中的文本内容；基于第一文本识别结果和预设提示词模板构建提示词，所述提示词用于指示多模态模型对所述第一文本识别结果进行矫正；通过多模态模型基于目标图像和提示词，得到对第一文本识别结果矫正后的第二文本识别结果。能够将文本识别模型的识别结果作为先验知识，有效降低多模态模型的文本识别难度，并且利用多模态模型对图像和文本的跨模态理解能力，基于提示词和目标图像对文本识别模型的识别结果进行双重矫正，从而提高多模态模型文本识别结果的准确性。

技术关键词

文本识别方法文本识别模型视觉特征编码矫正多模态特征序列大语言模型图像视觉特征文本识别装置上下文特征多层注意力机制存储装置电子设备计算机程序产品模块

文本识别方法、装置、可读介质、电子设备及程序产品

站点导航

APP 下载