摘要
本发明提供一种基于强化学习的电力大模型流水线冻结训练优化方法,主要包含两个部分:基于梯度和梯度变化量的冻结决策算法、基于强化学习的冻结训练优化方法。本发明首先设计了基于梯度和梯度变化量的冻结决策算法,以获得良好的冻结判断标准及冻结策略。然后针对如何在训练过程中动态调整冻结判断标准的阈值以适应不同时间点模型状态差异的问题,提出一种基于强化学习的冻结训练优化方法,以梯度变化量、梯度大小及冻结策略实施前后一定训练轮次所需时间等数据为基础,通过强化学习方法动态调整冻结判断标准阈值,从而在加速训练和保障精度中取得平衡,最终提高电力大模型训练效率。
技术关键词
训练优化方法
流水线
强化学习策略
深度学习模型
强化学习方法
并行训练方法
电力调控系统
决策算法
滑动窗口机制
参数
强化学习算法
生成动作
动态
网络
标记
序列
精度
系统为您推荐了相关专利信息
探伤缺陷
缺陷探伤
探伤拍片
轻合金铸件
灰度直方图
轧机
强化学习模型
样本
深度学习模型
历史运行数据
物体
位置检测方法
卷积神经网络提取
图像
深度学习模型
切片
计算机可读指令
荧光
深度学习模型
非线性配准方法
震动装置
生物传感器
微控制器
深度睡眠状态
助眠枕