基于大语言模型的文档图像信息抽取方法和装置

正文

推荐专利

申请号：CN202510597634

申请日期：2025-05-09

公开号：CN120472475A

公开日期：2025-08-12

类型：发明专利

摘要

本发明提供一种基于大语言模型的文档图像信息抽取方法和装置，通过获取待识别的文档图像，对文档图像进行检测识别，得到文本信息和文本坐标信息；使用预设符号重构文档图像的布局信息，生成布局感知文档；获取提问信息，按照预设的问题生成规则，基于布局感知文档和提问信息生成提示词；将提示词输入大语言模型，获取初步结果信息；根据本文行索引信息确定答案文本信息的坐标位置信息，将问题、问题对应的答案文本信息和坐标位置信息生成最终结果信息。通过该方法和装置的应用，结合了OCR识别引擎的图像分析处理能力和大语言模型的语义理解能力，能够识别分析多种文档图像，泛化能力强，信息抽取准确率高，减少了开发和维护成本。

技术关键词

图像信息抽取方法大语言模型文本行坐标位置信息答案竖直距离生成规则生成提示词布局符号文档图像识别非暂态计算机可读存储介质索引文档生成模块后处理模块重构抽取装置

系统为您推荐了相关专利信息

一种基于图检索增强生成的增强NPC对话能力的方法

文本实体多轮对话记忆管理摘要

信息获取方法、装置及电子设备

信息提取规则大语言模型信息获取方法网页结构网页信息提取

基于大语言模型的网络/安全设备安全策略生成及评估方法与系统

安全设备大语言模型有效性节点设备模块

一种基于大语言模型的细胞培养基辅助设计系统和方法

辅助设计系统细胞培养基大语言模型数据存储管理集成模块

用户问答方法、装置、电子设备、存储介质及程序产品

问答方法图片文本答案搜索设备

基于大语言模型的文档图像信息抽取方法和装置

站点导航

APP 下载