摘要
本发明提供了一种基于多模态大模型的试卷结构化存储方法及装置,包括如下步骤:获取试卷训练数据集,基于试卷训练数据集进行初级训练获得预训练多模态大模型;获取待存储试卷文档,提取待存储试卷文档中的图表区域并裁切生成图表图片,在裁切位置对应替换填充标识符生成新试卷文档;将裁切的图表图片存储至数据库;将新试卷文档输入至预训练多模态大模型进行文本内容提取;将文本内容中的标识符对应绑定并嵌入检索信息,获得试卷结构化文本并存储至数据库,检索信息用于索引图表图片在数据库中的存储地址。本发明实现试卷存储内容的完整性的同时,结合多模态大模型有效提高了试卷内容结构化提取泛化能力。
技术关键词
结构化存储方法
试卷
多模态
标识符
文本
图片
区域位置信息
树形结构
数据
索引
层级
排版结构
唯一性
生成图表
树状结构
存储装置
存储模块
系统为您推荐了相关专利信息
急救方法
生命体征数据
医学影像数据
结构特征提取
多模态
多模态特征
时间序列特征
卫星图像数据
知识图谱嵌入方法
计算机可读指令