摘要
一种文本识别方法、装置、可读介质、电子设备及程序产品,所述文本识别方法包括:确定文本识别模型针对目标图像的第一文本识别结果,所述文本识别模型用于识别输入的图像中的文本内容;基于第一文本识别结果和预设提示词模板构建提示词,所述提示词用于指示多模态模型对所述第一文本识别结果进行矫正;通过多模态模型基于目标图像和提示词,得到对第一文本识别结果矫正后的第二文本识别结果。能够将文本识别模型的识别结果作为先验知识,有效降低多模态模型的文本识别难度,并且利用多模态模型对图像和文本的跨模态理解能力,基于提示词和目标图像对文本识别模型的识别结果进行双重矫正,从而提高多模态模型文本识别结果的准确性。
技术关键词
文本识别方法
文本识别模型
视觉特征编码
矫正
多模态特征
序列
大语言模型
图像视觉特征
文本识别装置
上下文特征
多层注意力机制
存储装置
电子设备
计算机程序产品
模块