一种大语言模型预训练方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202411919771

申请日期：2024-12-24

公开号：CN119808839A

公开日期：2025-04-11

类型：发明专利

摘要

本申请公开了一种大语言模型预训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，方法包括：获取多类型的文本数据，并对文本数据进行预处理，得到初始预训练数据集；基于Transformer模型的解码器架构构建生成式大语言模型；根据初始预训练数据集对生成式大语言模型进行多个阶段的训练；根据教师模型和初始预训练数据集合成自蒸馏混合数据集；每个阶段训练后的生成式大语言模型作为教师模型；利用自蒸馏混合数据集训练学生模型；学生模型为教师模型之后相距k个阶段的生成式大语言模型；然后循环训练。本申请利用自蒸馏混合数据集提高了预训练学习的全面性，能有效地解决对低质量预训练数据进行重复学习的问题。

技术关键词

大语言模型预训练方法解码器架构文本教师阶段蒸馏学生电子设备随机方法可读存储介质数据处理单元人工智能技术参数注意力机制传播算法训练装置处理器样本

一种大语言模型预训练方法、装置、电子设备及存储介质

站点导航

APP 下载