基于安全强化学习的超参数调整方法、装置、设备和存储介质

正文

推荐专利

申请号：CN202510113630

申请日期：2025-01-23

公开号：CN120046700A

公开日期：2025-05-27

类型：发明专利

摘要

本公开的实施例提供一种基于安全强化学习的超参数调整方法，包括：首先将控制策略的优化问题转换为带有约束条件的拉格朗日问题，定义主、次损失函数以及设定安全阈值；其次将其结合拉格朗日乘子构建初始拉格朗日函数以最小化主损失并满足安全约束；然后通过求解对偶问题设定拉格朗日乘子初始值，再引入阻尼因子构建增强型函数；最后初始化模型参数后，在迭代中利用梯度下降法更新模型参数，梯度上升法更新乘子，代入增强型函数评估策略是否最优，即主损失最小且满足安全约束，直至找到全局最优解。从而实现了控制策略的优化，能够提升系统性能、保障系统安全，防止学得策略在满足约束时的振荡，进而确保强化学习过程的平稳进行。

技术关键词

拉格朗日强化学习模型梯度下降法驾驶控制策略传输效能定义阻尼因子保障系统安全机器人场景更新模型参数电网场景处理器模块基础提升系统

系统为您推荐了相关专利信息

一种基于道路照明指标的减碳指标评价方法及系统

指标评价方法道路照明节能路面亮度误差可控

一种商用车整车平顺与操稳性能指标分解与集成方法

商用车整车集成方法子系统整车动力学模型全局灵敏度分析方法

一种基于机器视觉的养殖鸡采食状态监测分析系统及方法

强化学习模型状态监测分析进食装置养殖鸡图像处理模块

一种基于机器学习的废气除异味系统及方法

质谱分析仪药剂投加量机器学习模型训练监测单元废气

一种基于卫星遥感反演数据的海表风速垂直外推方法及装置

卫星遥感反演卫星遥感数据外推方法人工神经网络模型风速

基于安全强化学习的超参数调整方法、装置、设备和存储介质

站点导航

APP 下载