摘要
本发明公开了一种减少大模型训练突刺问题的改进方法及系统,本发明方法包括在利用训练数据集训练大模型并采用Adam类优化器结合预设的损失函数优化更新大模型的模型参数时,为Adam类优化器用于防止分母为0的常数项引入使得改进后的Adam类优化器中用于防止分母为0的新的常数项随着训练的迭代次数增加而趋势不断地减小,其中为一阶矩估计的指数衰减率,为二阶矩估计的指数衰减率。本发明旨在解决使用Adam类优化器训练大模型时产生损失突刺问题,从而减少大模型训练损失突刺的产生,从而提高大模型训练的收敛速度和训练效率。
技术关键词
优化器
损失函数优化
表达式
参数
自然语言
微处理器
可读存储介质
文本
指数
计算机程序产品
编程
指令
多模态
音频
视频
数据
图像
存储器
系统为您推荐了相关专利信息
多层次特征
高光谱图像数据
注意力
神经架构搜索
缺陷自动检测方法
烟草农药残留
融合深度学习
动态预测方法
深度学习模型
数据
碳纤维复合材料
应力计算方法
光纤
建模方法
长径比
内参标定方法
陀螺仪数据
向量误差模型
加速度
分段