摘要
本申请提供一种文档识别方法、装置、计算设备和存储介质,包括:将待识别文档输入至光学字符识别OCR引擎,得到OCR引擎输出的第一识别结果;将待识别文档以及不同类数据的识别提示词分别输入至多个不同的多模态大语言模型,得到多个不同的多模态大语言模型输出的多个第二识别结果;针对文本类数据,将第一识别结果和多个第二识别结果进行对齐,得到第一输出结果;针对图类数据,基于多个第二识别结果,得到第二输出结果;基于第一输出结果和第二输出结果,得到待识别文档的识别结果。该方案,能够实现准确有效地对文档进行OCR识别。
技术关键词
大语言模型
光学字符识别
文档识别方法
位置指示信息
键值
计算机可读指令
文档识别装置
分块
数据
计算机设备
文本
存储程序指令
计算机程序产品
可读存储介质
存储器
像素
处理器