摘要
本公开的实施例提供一种基于安全强化学习的超参数调整方法,包括:首先将控制策略的优化问题转换为带有约束条件的拉格朗日问题,定义主、次损失函数以及设定安全阈值;其次将其结合拉格朗日乘子构建初始拉格朗日函数以最小化主损失并满足安全约束;然后通过求解对偶问题设定拉格朗日乘子初始值,再引入阻尼因子构建增强型函数;最后初始化模型参数后,在迭代中利用梯度下降法更新模型参数,梯度上升法更新乘子,代入增强型函数评估策略是否最优,即主损失最小且满足安全约束,直至找到全局最优解。从而实现了控制策略的优化,能够提升系统性能、保障系统安全,防止学得策略在满足约束时的振荡,进而确保强化学习过程的平稳进行。
技术关键词
拉格朗日
强化学习模型
梯度下降法
驾驶控制策略
传输效能
定义
阻尼
因子
保障系统安全
机器人场景
更新模型参数
电网场景
处理器
模块
基础
提升系统
系统为您推荐了相关专利信息
商用车整车
集成方法
子系统
整车动力学模型
全局灵敏度分析方法
强化学习模型
状态监测分析
进食装置
养殖鸡
图像处理模块
质谱分析仪
药剂投加量
机器学习模型训练
监测单元
废气
卫星遥感反演
卫星遥感数据
外推方法
人工神经网络模型
风速