文本识别方法、装置、可读介质、电子设备及程序产品

AITNT
正文
推荐专利
文本识别方法、装置、可读介质、电子设备及程序产品
申请号:CN202411826878
申请日期:2024-12-11
公开号:CN119693958A
公开日期:2025-03-25
类型:发明专利
摘要
一种文本识别方法、装置、可读介质、电子设备及程序产品,所述文本识别方法包括:确定文本识别模型针对目标图像的第一文本识别结果,所述文本识别模型用于识别输入的图像中的文本内容;基于第一文本识别结果和预设提示词模板构建提示词,所述提示词用于指示多模态模型对所述第一文本识别结果进行矫正;通过多模态模型基于目标图像和提示词,得到对第一文本识别结果矫正后的第二文本识别结果。能够将文本识别模型的识别结果作为先验知识,有效降低多模态模型的文本识别难度,并且利用多模态模型对图像和文本的跨模态理解能力,基于提示词和目标图像对文本识别模型的识别结果进行双重矫正,从而提高多模态模型文本识别结果的准确性。
技术关键词
文本识别方法 文本识别模型 视觉特征编码 矫正 多模态特征 序列 大语言模型 图像视觉特征 文本识别装置 上下文特征 多层注意力机制 存储装置 电子设备 计算机程序产品 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号