摘要
本发明公开了一种基于多模态大语言模型的合同信息提取方法及设备,属于智慧合同技术领域,用于解决现有的合同信息提取方式受规则模板的限制,难以提取合同中的图表信息以及关键命名实体信息,存在遗漏问题,且提取流程不灵活的技术问题。方法包括:获取不同格式的合同数据并构建模型训练数据集;构建合同图片数据与合同文本数据的隐空间映射模型;通过模型训练数据集训练隐空间映射模型,并根据模型验证结果,获取通用文本数据编码器以及通用图片数据编码器;基于通用文本数据编码器以及通用图片数据编码器,构建合同提取大语言模型;通过模型训练数据集训练所述合同提取大语言模型,并验证信息提取的准确度。
技术关键词
数据编码器
合同信息提取方法
合同文本数据
大语言模型
图片
多模态
后处理模块
前馈神经网络
信息提取设备
公章
数据格式
文本编码器
表格
训练集
基座