预训练大模型的训练方法、装置及设备

正文

推荐专利

预训练大模型的训练方法、装置及设备

申请号：CN202411972558

申请日期：2024-12-30

公开号：CN119808885A

公开日期：2025-04-11

类型：发明专利

摘要

本申请提供一种预训练大模型的训练方法、装置及设备，涉及人工智能技术领域，该方法通过在对预训练大模型进行微调的过程中，基于预设梯度矩阵的类型，对第一低秩矩阵和第二低秩进行初始化，并基于初始化后的第一低秩矩阵和第二低秩矩阵对待更新模型进行迭代训练，可以避免对低秩矩阵进行全零初始化导致在模型训练过程中梯度消失或爆炸的问题，可以达到提高收敛速度的效果。

技术关键词

矩阵单精度浮点数据分支可执行程序代码人工智能技术数据获取模块模型更新训练装置电子设备处理器网络参数存储器速度

预训练大模型的训练方法、装置及设备

站点导航

APP 下载