摘要
本发明提出了一种广义逼近的自适应LoRA低秩方法,特征在于包括直接对transformer注意力层的多个参数变化量矩阵进行广义低秩逼近求解,交替迭代计算求解获得参数变化量矩阵的左右投影变换矩阵,根据优化目标的收敛条件以双边降维的迭代方法对矩阵进行降秩,最终求得每个参数变化量矩阵的低秩结构。本发明基于大语言模型领域专业训练过程中所用到的LoRA高效微调的理念逻辑,采用矩阵的广义低秩逼近方法求解参数变化量的低秩结构,相较于传统的LoRA高效微调来说能自动计算不同矩阵的低秩结构,并且相较于基于SVD分解的AdaLoRA方法能不依靠在大语言模型训练的损失函数里添加复杂的惩罚项来实现不同矩阵的低秩结构计算。该方法具有更好的灵活性、计算量小、鲁棒性强的优点。
技术关键词
投影变换矩阵
广义
低秩结构
梯度下降法
大语言模型
迭代方法
特征值
注意力
参数
鲁棒性
逻辑
系统为您推荐了相关专利信息
机器人足部
惯性定位方法
导航误差
导航坐标系
导航系统
电力变压器故障
卷积网络模型
归一化方法
电力设备故障诊断技术
网络结构
文本
监管方法
计算机可读取存储介质
计算机可读指令
监管设备