摘要
本申请涉及计算机技术领域,具体提供一种基于大语言模型的结构化信息提取方法、控制器及介质,旨在解决复杂场景下的图像结构化信息提取任务难以准确完成的问题。为此目的,本申请的方法包括:对目标图像进行版式分析,确定目标图像中的不同版面类型的至少一个分区,对每个分区中的文字进行聚类,获取每个分区的关键词信息,基于每个分区的版面类型和关键词信息调用大语言模型获取目标图像的结构化信息。如此,本申请不仅可以识别出目标图像中各个分区的版面类型,提高了提取目标图像的结构化信息的准确度,还可以对目标图像的文字进行聚类得到关键词信息,无需根据目标图像的场景定制,可以适用于多类真实场景下的存在不同版面类型的图像。
技术关键词
结构化信息提取方法
大语言模型
分区
关键词
表格
图像
图片
光学字符识别技术
聚类
生成提示词
自然语言
位置提取
表头
控制器
处理器
场景
可读存储介质
多模态
存储器
转换器