大语言模型的微调方法和装置

AITNT
正文
推荐专利
大语言模型的微调方法和装置
申请号:CN202510199077
申请日期:2025-02-21
公开号:CN119990183A
公开日期:2025-05-13
类型:发明专利
摘要
本说明书实施例提供一种大语言模型的微调方法和装置。方法包括:获取预训练的大语言模型的权重矩阵,将权重矩阵分解为幅度向量和第一方向矩阵,并初始化第一低秩矩阵和第二低秩矩阵,第一低秩矩阵和第二低秩矩阵的乘积用于拟合第一方向矩阵的增量矩阵;保持第一方向矩阵不变,执行多轮微调,每轮微调包括:将训练文本输入大语言模型,进行损失函数的计算;基于损失函数更新幅度向量;确定损失函数相对于当前方向矩阵的第一梯度矩阵;根据第一梯度矩阵得到更新的第一低秩矩阵以及第二低秩矩阵;基于更新的第一低秩矩阵和第二低秩矩阵的乘积确定本轮增量矩阵,将本轮增量矩阵叠加在第一方向矩阵上,作为本轮更新后的方向矩阵。
技术关键词
矩阵 大语言模型 文本 微调方法 三元组 元素 微调单元 计算机程序产品 因子 微调装置 标记 处理器 参数 存储器 数值 指令
系统为您推荐了相关专利信息
1
一种基于Transformer框架的资源指标预测方法、设备及介质
指标预测方法 容量管理系统 时序预测方法 时序预测模型 多头注意力机制
2
一种水面光伏电站集电系统多目标优化设计方法
水面光伏电站 集电系统 箱式变电站 优化设计方法 光伏组件
3
一种基于NPL分析的患者外出检查智能决策方法及系统
智能决策方法 NLP技术 患者 标签 智能决策系统
4
一种基于改进量子粒子群算法的颗粒粒度反演方法及装置
量子粒子群算法 位置更新 反演方法 光电探测器参数 空间滤波器
5
一种城市轨道交通钢轨对地绝缘缺陷的诊断方法
轨道交通钢轨 监测点 诊断方法 绝缘 电流
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号