一种大语言模型训练方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202410978468

申请日期：2024-07-22

公开号：CN118520975B

公开日期：2024-12-03

类型：发明专利

摘要

本申请公开了一种大语言模型训练方法、装置、电子设备及存储介质，该方法包括：将第二总和与第一总和相比，得到第一比值，当第一比值大于第二比值时，将第三比值与预设的最小比值、最大比值进行比较，得到矩阵秩对应的比较结果；获取比较结果对应的适应系数，将预设值乘以适应系数，生成矩阵秩的优化值；根据优化值，将权重矩阵分解成低秩矩阵D和低秩矩阵E；根据第一梯度值和第一学习率更新低秩矩阵D的第一参数，根据第二梯度值和第二学习率更新低秩矩阵E的第二参数，直至保存训练完成的大语言模型，在此过程中，不同网络层的低秩矩阵D和E的秩会自适应变大或者变小，而不是采用固定且相同的值。本申请有利于提高大语言模型的训练效率。

技术关键词

大语言模型矩阵语言模型训练方法参数电子设备可读存储介质处理器模块列表训练装置存储器计算机

系统为您推荐了相关专利信息

一种糖尿病足截骨术后血管神经功能评估系统及方法

评估系统血管数据采集模块数据存储模块分析模块

一种系统漏洞攻击处置方法、程序产品、存储介质及设备

系统漏洞攻击资产入侵检测系统计算机程序产品节点

调整反射角光路机构和拉曼光初始倾角的快速测量方法

测量方法原子干涉重力仪倾斜仪原子重力仪反射镜

基于隧道衬砌展开图裂缝特征数据参数化建模方法及装置

二值化图像特征参数提取参数化建模方法隧道衬砌裂缝隧道轮廓

鱼眼图像的边缘直线特征提取方法、装置、设备及介质

直线特征提取方法鱼眼图像 RANSAC算法特征提取装置边缘检测算子

一种大语言模型训练方法、装置、电子设备及存储介质

站点导航

APP 下载