大语言模型的微调方法和装置

正文

推荐专利

大语言模型的微调方法和装置

申请号：CN202510199077

申请日期：2025-02-21

公开号：CN119990183A

公开日期：2025-05-13

类型：发明专利

摘要

本说明书实施例提供一种大语言模型的微调方法和装置。方法包括：获取预训练的大语言模型的权重矩阵，将权重矩阵分解为幅度向量和第一方向矩阵，并初始化第一低秩矩阵和第二低秩矩阵，第一低秩矩阵和第二低秩矩阵的乘积用于拟合第一方向矩阵的增量矩阵；保持第一方向矩阵不变，执行多轮微调，每轮微调包括：将训练文本输入大语言模型，进行损失函数的计算；基于损失函数更新幅度向量；确定损失函数相对于当前方向矩阵的第一梯度矩阵；根据第一梯度矩阵得到更新的第一低秩矩阵以及第二低秩矩阵；基于更新的第一低秩矩阵和第二低秩矩阵的乘积确定本轮增量矩阵，将本轮增量矩阵叠加在第一方向矩阵上，作为本轮更新后的方向矩阵。

技术关键词

矩阵大语言模型文本微调方法三元组元素微调单元计算机程序产品因子微调装置标记处理器参数存储器数值指令

系统为您推荐了相关专利信息

一种基于Transformer框架的资源指标预测方法、设备及介质

指标预测方法容量管理系统时序预测方法时序预测模型多头注意力机制

一种水面光伏电站集电系统多目标优化设计方法

水面光伏电站集电系统箱式变电站优化设计方法光伏组件

一种基于NPL分析的患者外出检查智能决策方法及系统

智能决策方法 NLP技术患者标签智能决策系统

一种基于改进量子粒子群算法的颗粒粒度反演方法及装置

量子粒子群算法位置更新反演方法光电探测器参数空间滤波器

一种城市轨道交通钢轨对地绝缘缺陷的诊断方法

轨道交通钢轨监测点诊断方法绝缘电流

大语言模型的微调方法和装置

站点导航

APP 下载