一种减少大模型训练突刺问题的改进方法及系统

AITNT
正文
推荐专利
一种减少大模型训练突刺问题的改进方法及系统
申请号:CN202411821673
申请日期:2024-12-11
公开号:CN119721161A
公开日期:2025-03-28
类型:发明专利
摘要
本发明公开了一种减少大模型训练突刺问题的改进方法及系统,本发明方法包括在利用训练数据集训练大模型并采用Adam类优化器结合预设的损失函数优化更新大模型的模型参数时,为Adam类优化器用于防止分母为0的常数项引入使得改进后的Adam类优化器中用于防止分母为0的新的常数项随着训练的迭代次数增加而趋势不断地减小,其中为一阶矩估计的指数衰减率,为二阶矩估计的指数衰减率。本发明旨在解决使用Adam类优化器训练大模型时产生损失突刺问题,从而减少大模型训练损失突刺的产生,从而提高大模型训练的收敛速度和训练效率。
技术关键词
优化器 损失函数优化 表达式 参数 自然语言 微处理器 可读存储介质 文本 指数 计算机程序产品 编程 指令 多模态 音频 视频 数据 图像 存储器
系统为您推荐了相关专利信息
1
基于高光谱成像的半导体芯片缺陷自动检测方法及系统
多层次特征 高光谱图像数据 注意力 神经架构搜索 缺陷自动检测方法
2
一种融合深度学习与机理模型的烟草农药残留动态预测方法及系统
烟草农药残留 融合深度学习 动态预测方法 深度学习模型 数据
3
一种光纤植入碳纤维复合材料眼状结构类比建模方法与脱层应力计算方法
碳纤维复合材料 应力计算方法 光纤 建模方法 长径比
4
一种IMU内参标定方法
内参标定方法 陀螺仪数据 向量误差模型 加速度 分段
5
针对异构GPU显卡的大语言模型分布式流水并行微调方法
GPU显卡 微调方法 分析器 多任务 微调系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号