摘要
本发明公开了一种基于贝尔曼误差导向策略的离线强化学习方法,包括如下步骤:步骤1、输入离线数据集,建立Critic和Actor的神经网络模型;步骤2、从离线数据集中采样批量样本;步骤3、在策略评估阶段,基于步骤2构建Critic学习目标;步骤4、在策略改进阶段,基于步骤3构建基于贝尔曼误差导向策略的Actor学习目标;步骤5、更新Critic目标网络参数、策略约束参数和贝尔曼误差约束参数;步骤6、通过对策略评估和策略改进过程进行迭代更新,Actor最终输出最优控制决策。本发明方法实施简单有效,在每步策略更新中能够提前减小估计误差对策略更新的误导作用,提高了策略评估的准确性和策略的泛化能力。
技术关键词
强化学习方法
离线
超参数
神经网络模型
网络学习方法
策略更新
阶段
机器人关节
样本
梯度方法
批量
梯度下降法
估计误差
数据
系统为您推荐了相关专利信息
制冰机
故障监测系统
深度神经网络模型
参数
物联网技术
生物标志物技术
脊髓性肌萎缩
血清
重症肌无力
神经网络模型
神经网络电路
系列微控制器
神经网络模型
函数分析方法
疾病机制研究
音频
音检测方法
频谱特征提取
电梯
短时傅里叶变换
智能控制系统
编码向量
神经网络模型
视频采集装置
速度传感器