基于大模型的OCR识别方法、系统以及存储介质

正文

推荐专利

申请号：CN202410804213

申请日期：2024-06-21

公开号：CN118379742B

公开日期：2024-11-19

类型：发明专利

摘要

本申请公开了一种基于大模型的OCR识别方法、系统以及存储介质，通过获取待识别图像以及文本提示信息；基于设置的多模态大模型分别对待识别图像以及文本提示信息进行特征提取得到全局图像特征、第一局部图像特征以及文本特征；基于全局图像特征以及文本特征，确定待识别图像对应的文本定位图；基于文本定位图对第一局部图像特征进行位置编码嵌入得到第二局部图像特征；将第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息；将指令输入信息输入至设置的大语言模型得到OCR识别结果。适应复杂场景进行高精度识别，具备较高的实用性，有效优化用户体验。

技术关键词

局部图像特征图像特征信息 OCR识别方法图像编码器指令文本编码器像素点注意力多模态优化用户体验识别系统矩阵可读存储介质转换器程序处理器

基于大模型的OCR识别方法、系统以及存储介质

站点导航

APP 下载