大语言模型的训练方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202410804386

申请日期：2024-06-20

公开号：CN118673324A

公开日期：2024-09-20

类型：发明专利

摘要

本公开提供了一种大语言模型的训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及大模型、深度学习和云计算领域。具体实现方案为：获取低秩适应LoRA网络的秩大小，并根据秩大小确定LoRA网络的缩放参数范围；根据秩大小，确定LoRA网络的可学习参数的多个候选缩放参数；从多个候选缩放参数中，确定LoRA网络的目标缩放参数；基于目标缩放参数更新LoRA网络，并基于更新后LoRA网络对预训练的大语言模型进行微调训练，直至得到目标大语言模型。

技术关键词

缩放参数大语言模型网络矩阵乘法运算电子设备模块人工智能技术计算机程序产品训练装置处理器通信指令可读存储介质分支存储器阶段

大语言模型的训练方法、装置、电子设备及存储介质

站点导航

APP 下载