摘要
本申请公开了一种面向纯文本应用的大语言模型微调训练方法及相关装置,包括:获取目标垂直领域所对应的垂直领域数据集,以大语言模型微调所需要的数据集格式进行整理;将预训练模型的权重矩阵分解为方向性矩阵和幅度向量并将其量化;在模型微调训练的前向传播过程中使用秩平方根方法,缓解了在矩阵秩较大情况时的梯度崩溃问题,同时调整反向传播过程中的矩阵学习率比率,提升了模型对输入特征变化和输出特征生成任务的适应性;最后计算出损失函数对于矩阵和幅度向量的梯度并分别对其进行更新,得到最终微调模型。本申请在使用较小计算开销的前提下,提升了模型的微调效率和精度,并且该方法可以应用到各种大语言模型及垂直领域中,具有良好的泛化性。
技术关键词
矩阵
大语言模型
文本
计算机程序产品
传播算法
输出特征
处理器
计算机设备
平方根
可读存储介质
比率
数据
指令
精度
存储器
电力
电子设备
格式
因子
系统为您推荐了相关专利信息
决策评价方法
谱聚类算法
锚点
矩阵
数据处理模块
推导方法
网络
风量
传感器数据采集模块
矿井通风技术
无人机遥感技术
高分辨率相机
三维表面模型
测绘方法
地质结构