摘要
本发明提供一种基于大语言模型的文档图像信息抽取方法和装置,通过获取待识别的文档图像,对文档图像进行检测识别,得到文本信息和文本坐标信息;使用预设符号重构文档图像的布局信息,生成布局感知文档;获取提问信息,按照预设的问题生成规则,基于布局感知文档和提问信息生成提示词;将提示词输入大语言模型,获取初步结果信息;根据本文行索引信息确定答案文本信息的坐标位置信息,将问题、问题对应的答案文本信息和坐标位置信息生成最终结果信息。通过该方法和装置的应用,结合了OCR识别引擎的图像分析处理能力和大语言模型的语义理解能力,能够识别分析多种文档图像,泛化能力强,信息抽取准确率高,减少了开发和维护成本。
技术关键词
图像信息抽取方法
大语言模型
文本行
坐标位置信息
答案
竖直距离
生成规则
生成提示词
布局
符号
文档图像识别
非暂态计算机可读存储介质
索引
文档生成模块
后处理模块
重构
抽取装置
系统为您推荐了相关专利信息
信息提取规则
大语言模型
信息获取方法
网页结构
网页信息提取
辅助设计系统
细胞培养基
大语言模型
数据存储管理
集成模块