一种大语言模型训练方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
一种大语言模型训练方法、装置、电子设备及存储介质
申请号:CN202410978468
申请日期:2024-07-22
公开号:CN118520975B
公开日期:2024-12-03
类型:发明专利
摘要
本申请公开了一种大语言模型训练方法、装置、电子设备及存储介质,该方法包括:将第二总和与第一总和相比,得到第一比值,当第一比值大于第二比值时,将第三比值与预设的最小比值、最大比值进行比较,得到矩阵秩对应的比较结果;获取比较结果对应的适应系数,将预设值乘以适应系数,生成矩阵秩的优化值;根据优化值,将权重矩阵分解成低秩矩阵D和低秩矩阵E;根据第一梯度值和第一学习率更新低秩矩阵D的第一参数,根据第二梯度值和第二学习率更新低秩矩阵E的第二参数,直至保存训练完成的大语言模型,在此过程中,不同网络层的低秩矩阵D和E的秩会自适应变大或者变小,而不是采用固定且相同的值。本申请有利于提高大语言模型的训练效率。
技术关键词
大语言模型 矩阵 语言模型训练方法 参数 电子设备 可读存储介质 处理器 模块 列表 训练装置 存储器 计算机
系统为您推荐了相关专利信息
1
一种糖尿病足截骨术后血管神经功能评估系统及方法
评估系统 血管 数据采集模块 数据存储模块 分析模块
2
一种系统漏洞攻击处置方法、程序产品、存储介质及设备
系统漏洞攻击 资产 入侵检测系统 计算机程序产品 节点
3
调整反射角光路机构和拉曼光初始倾角的快速测量方法
测量方法 原子干涉重力仪 倾斜仪 原子重力仪 反射镜
4
基于隧道衬砌展开图裂缝特征数据参数化建模方法及装置
二值化图像 特征参数提取 参数化建模方法 隧道衬砌裂缝 隧道轮廓
5
鱼眼图像的边缘直线特征提取方法、装置、设备及介质
直线特征提取方法 鱼眼图像 RANSAC算法 特征提取装置 边缘检测算子
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号