一种大语言模型预训练方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
一种大语言模型预训练方法、装置、电子设备及存储介质
申请号:CN202411919771
申请日期:2024-12-24
公开号:CN119808839A
公开日期:2025-04-11
类型:发明专利
摘要
本申请公开了一种大语言模型预训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,方法包括:获取多类型的文本数据,并对文本数据进行预处理,得到初始预训练数据集;基于Transformer模型的解码器架构构建生成式大语言模型;根据初始预训练数据集对生成式大语言模型进行多个阶段的训练;根据教师模型和初始预训练数据集合成自蒸馏混合数据集;每个阶段训练后的生成式大语言模型作为教师模型;利用自蒸馏混合数据集训练学生模型;学生模型为教师模型之后相距k个阶段的生成式大语言模型;然后循环训练。本申请利用自蒸馏混合数据集提高了预训练学习的全面性,能有效地解决对低质量预训练数据进行重复学习的问题。
技术关键词
大语言模型 预训练方法 解码器架构 文本 教师 阶段 蒸馏 学生 电子设备 随机方法 可读存储介质 数据处理单元 人工智能技术 参数 注意力机制 传播算法 训练装置 处理器 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号