基于大模型的OCR识别方法、系统以及存储介质

AITNT
正文
推荐专利
基于大模型的OCR识别方法、系统以及存储介质
申请号:CN202410804213
申请日期:2024-06-21
公开号:CN118379742B
公开日期:2024-11-19
类型:发明专利
摘要
本申请公开了一种基于大模型的OCR识别方法、系统以及存储介质,通过获取待识别图像以及文本提示信息;基于设置的多模态大模型分别对待识别图像以及文本提示信息进行特征提取得到全局图像特征、第一局部图像特征以及文本特征;基于全局图像特征以及文本特征,确定待识别图像对应的文本定位图;基于文本定位图对第一局部图像特征进行位置编码嵌入得到第二局部图像特征;将第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息;将指令输入信息输入至设置的大语言模型得到OCR识别结果。适应复杂场景进行高精度识别,具备较高的实用性,有效优化用户体验。
技术关键词
局部图像特征 图像特征信息 OCR识别方法 图像编码器 指令 文本编码器 像素点 注意力 多模态 优化用户体验 识别系统 矩阵 可读存储介质 转换器 程序 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号