摘要
本申请公开了一种大语言模型预训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,方法包括:获取多类型的文本数据,并对文本数据进行预处理,得到初始预训练数据集;基于Transformer模型的解码器架构构建生成式大语言模型;根据初始预训练数据集对生成式大语言模型进行多个阶段的训练;根据教师模型和初始预训练数据集合成自蒸馏混合数据集;每个阶段训练后的生成式大语言模型作为教师模型;利用自蒸馏混合数据集训练学生模型;学生模型为教师模型之后相距k个阶段的生成式大语言模型;然后循环训练。本申请利用自蒸馏混合数据集提高了预训练学习的全面性,能有效地解决对低质量预训练数据进行重复学习的问题。
技术关键词
大语言模型
预训练方法
解码器架构
文本
教师
阶段
蒸馏
学生
电子设备
随机方法
可读存储介质
数据处理单元
人工智能技术
参数
注意力机制
传播算法
训练装置
处理器
样本