摘要
本申请公开了一种文档信息结构化抽取方法、装置、存储介质及设备,该方法包括:首先获取目标文档所在的目标图像;并提取目标图像的目标视觉特征;然后将目标视觉特征输入语义信息提取模型进行OCR信息提取,得到目标OCR信息,并对其进行编码处理,得到目标语义编码向量;接着将目标视觉特征和目标语义编码向量输入预先构建的多模态大语言模型,预测得到目标文档对应的信息结构化抽取结果。可见,由于本申请采用的是结合OCR信息与多模态大语言模型的通用信息结构化抽取方法,并采用了视觉特征和OCR信息分别作为空间和文本语义上的抽取依据,解决了通过纯文本进行结构化抽取时的空间信息匮乏问题,从而能够有效提高文档信息结构化抽取的准确率。
技术关键词
语义信息提取
视觉特征
大语言模型
光学字符识别
图像
多模态
可读存储介质
终端设备
抽取设备
抽取装置
处理器
样本
存储器
指令
编码
文本
计算机
程序
坐标
系统为您推荐了相关专利信息
智能枪柜管理系统
远程管理终端
特征识别模块
嵌入式Linux系统
环境监测模块
编码器
多头注意力机制
图像块
图像分类模型
图像分割
智能监护系统
患者术后康复
神经网络模型
图像处理服务器
文本
颜色直方图特征
HSV颜色直方图
短视频
节点
特征提取模块