摘要
本申请公开了一种基于大模型的OCR识别方法、系统以及存储介质,通过获取待识别图像以及文本提示信息;基于设置的多模态大模型分别对待识别图像以及文本提示信息进行特征提取得到全局图像特征、第一局部图像特征以及文本特征;基于全局图像特征以及文本特征,确定待识别图像对应的文本定位图;基于文本定位图对第一局部图像特征进行位置编码嵌入得到第二局部图像特征;将第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息;将指令输入信息输入至设置的大语言模型得到OCR识别结果。适应复杂场景进行高精度识别,具备较高的实用性,有效优化用户体验。
技术关键词
局部图像特征
图像特征信息
OCR识别方法
图像编码器
指令
文本编码器
像素点
注意力
多模态
优化用户体验
识别系统
矩阵
可读存储介质
转换器
程序
处理器