基于安全强化学习的超参数调整方法、装置、设备和存储介质

AITNT
正文
推荐专利
基于安全强化学习的超参数调整方法、装置、设备和存储介质
申请号:CN202510113630
申请日期:2025-01-23
公开号:CN120046700A
公开日期:2025-05-27
类型:发明专利
摘要
本公开的实施例提供一种基于安全强化学习的超参数调整方法,包括:首先将控制策略的优化问题转换为带有约束条件的拉格朗日问题,定义主、次损失函数以及设定安全阈值;其次将其结合拉格朗日乘子构建初始拉格朗日函数以最小化主损失并满足安全约束;然后通过求解对偶问题设定拉格朗日乘子初始值,再引入阻尼因子构建增强型函数;最后初始化模型参数后,在迭代中利用梯度下降法更新模型参数,梯度上升法更新乘子,代入增强型函数评估策略是否最优,即主损失最小且满足安全约束,直至找到全局最优解。从而实现了控制策略的优化,能够提升系统性能、保障系统安全,防止学得策略在满足约束时的振荡,进而确保强化学习过程的平稳进行。
技术关键词
拉格朗日 强化学习模型 梯度下降法 驾驶控制策略 传输效能 定义 阻尼 因子 保障系统安全 机器人场景 更新模型参数 电网场景 处理器 模块 基础 提升系统
系统为您推荐了相关专利信息
1
一种基于道路照明指标的减碳指标评价方法及系统
指标评价方法 道路照明节能 路面 亮度 误差可控
2
一种商用车整车平顺与操稳性能指标分解与集成方法
商用车整车 集成方法 子系统 整车动力学模型 全局灵敏度分析方法
3
一种基于机器视觉的养殖鸡采食状态监测分析系统及方法
强化学习模型 状态监测分析 进食装置 养殖鸡 图像处理模块
4
一种基于机器学习的废气除异味系统及方法
质谱分析仪 药剂投加量 机器学习模型训练 监测单元 废气
5
一种基于卫星遥感反演数据的海表风速垂直外推方法及装置
卫星遥感反演 卫星遥感数据 外推方法 人工神经网络模型 风速
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号