摘要
本申请公开了一种大语言模型训练方法、装置、电子设备及存储介质,该方法包括:将第二总和与第一总和相比,得到第一比值,当第一比值大于第二比值时,将第三比值与预设的最小比值、最大比值进行比较,得到矩阵秩对应的比较结果;获取比较结果对应的适应系数,将预设值乘以适应系数,生成矩阵秩的优化值;根据优化值,将权重矩阵分解成低秩矩阵D和低秩矩阵E;根据第一梯度值和第一学习率更新低秩矩阵D的第一参数,根据第二梯度值和第二学习率更新低秩矩阵E的第二参数,直至保存训练完成的大语言模型,在此过程中,不同网络层的低秩矩阵D和E的秩会自适应变大或者变小,而不是采用固定且相同的值。本申请有利于提高大语言模型的训练效率。
技术关键词
大语言模型
矩阵
语言模型训练方法
参数
电子设备
可读存储介质
处理器
模块
列表
训练装置
存储器
计算机
系统为您推荐了相关专利信息
评估系统
血管
数据采集模块
数据存储模块
分析模块
系统漏洞攻击
资产
入侵检测系统
计算机程序产品
节点
测量方法
原子干涉重力仪
倾斜仪
原子重力仪
反射镜
二值化图像
特征参数提取
参数化建模方法
隧道衬砌裂缝
隧道轮廓
直线特征提取方法
鱼眼图像
RANSAC算法
特征提取装置
边缘检测算子