摘要
本发明公开了一种基于贝尔曼误差导向策略的离线强化学习方法,包括如下步骤:步骤1、输入离线数据集,建立Critic和Actor的神经网络模型;步骤2、从离线数据集中采样批量样本;步骤3、在策略评估阶段,基于步骤2构建Critic学习目标;步骤4、在策略改进阶段,基于步骤3构建基于贝尔曼误差导向策略的Actor学习目标;步骤5、更新Critic目标网络参数、策略约束参数和贝尔曼误差约束参数;步骤6、通过对策略评估和策略改进过程进行迭代更新,Actor最终输出最优控制决策。本发明方法实施简单有效,在每步策略更新中能够提前减小估计误差对策略更新的误导作用,提高了策略评估的准确性和策略的泛化能力。
技术关键词
强化学习方法
离线
超参数
神经网络模型
网络学习方法
策略更新
阶段
机器人关节
样本
梯度方法
批量
梯度下降法
估计误差
数据
系统为您推荐了相关专利信息
事理知识图谱
电网故障处置
电网故障智能
告警事件信息
辅助分析方法
智能评价系统
高精度力传感器
智能评价方法
皮革
光学成像模块