摘要
本申请提供一种预训练大模型的训练方法、装置及设备,涉及人工智能技术领域,该方法通过在对预训练大模型进行微调的过程中,基于预设梯度矩阵的类型,对第一低秩矩阵和第二低秩进行初始化,并基于初始化后的第一低秩矩阵和第二低秩矩阵对待更新模型进行迭代训练,可以避免对低秩矩阵进行全零初始化导致在模型训练过程中梯度消失或爆炸的问题,可以达到提高收敛速度的效果。
技术关键词
矩阵
单精度浮点数据
分支
可执行程序代码
人工智能技术
数据获取模块
模型更新
训练装置
电子设备
处理器
网络
参数
存储器
速度