摘要
本发明属于神经网络模型训练优化技术领域,公开一种大规模神经网络训练的低秩矩阵梯度估计方法及系统,该方法包括:基于预设采样规则,采样满足等距或各向同性约束的低秩随机子空间;将矩阵梯度估计算法嵌入至低秩随机子空间中执行,在低维辅助变量上进行累加与更新;当低维辅助变量累积到预设步数后,对矩阵梯度估计算法的参数进行惰性更新;基于惰性更新后的矩阵梯度估计算法的全参数,计算加权矩阵,并根据加权矩阵的谱信息,优化下一轮低秩随机子空间的预设采样规则,以实现对低秩矩阵梯度估计。本发明提出包含估计阶段低秩化、投影分布最优化及惰性更新的方案,在工程上显著降低显存和步时门槛,在大模型微调中体现出可观的性价比。
技术关键词
神经网络训练
估计算法
矩阵
估计方法
特征值
变量
神经网络模型训练
参数
噪声信息
策略
迭代算法
采样模块
平方根
数值
门槛
阶段
密度
系统为您推荐了相关专利信息
脑电信号识别方法
卷积神经网络模型
频域特征
正则化参数
正则化方法
空调负荷预测方法
通道
矩阵
图像
sigmoid函数
三维地质模型
构型
构建系统
验证子系统
分级识别方法
分段
施工模架
加权最小二乘法
地理信息系统
三维激光雷达