摘要
本申请公开了一种模型训练方法、元数据提取方法及装置,该模型训练方法包括:获取第一训练样本集,其中,第一训练样本集包括与训练文档对应的多个第一元数据条目,每个第一元数据条目包括训练文档的文档名称、第一元数据项、第一元数据项对应的语义词汇标准名称、第一元数据项在训练文档中的索引位置、第一元数据项对应的至少一个第一衍生信息以及每个第一衍生信息对应的衍生信息说明;针对每一第一元数据条目,通过目标大语言模型对第一元数据条目进行修正,得到第一元数据条目对应的第二元数据条目;将第二训练样本集作为外部知识库,并利用检索增强策略使其基于训练文档,训练目标大语言模型,其中,第二训练样本集包括每个第二元数据条目。
技术关键词
大语言模型
数据项
训练样本集
条目
模型训练方法
数据提取方法
语义
索引
词典
指令
计算机程序产品
数据提取装置
可读存储介质
模型训练装置
策略
处理器
模块
系统为您推荐了相关专利信息
超大规模
字符检测模型
图像数据生成方法
识别模型训练方法
缩放模块
混合专家系统
大语言模型
迁移方法
指纹特征
子模块
大语言模型
对话生成方法
标签
对话生成系统
模版
掩码规则
模型预训练
计算机执行指令
数据
训练样本集
瑕疵检测方法
残差注意力机制
在线增量学习
面料
卷积神经网络卷积运算