一种基于贝尔曼误差导向策略的离线强化学习方法

正文

推荐专利

申请号：CN202411630614

申请日期：2024-11-15

公开号：CN119539021A

公开日期：2025-02-28

类型：发明专利

摘要

本发明公开了一种基于贝尔曼误差导向策略的离线强化学习方法，包括如下步骤：步骤1、输入离线数据集，建立Critic和Actor的神经网络模型；步骤2、从离线数据集中采样批量样本；步骤3、在策略评估阶段，基于步骤2构建Critic学习目标；步骤4、在策略改进阶段，基于步骤3构建基于贝尔曼误差导向策略的Actor学习目标；步骤5、更新Critic目标网络参数、策略约束参数和贝尔曼误差约束参数；步骤6、通过对策略评估和策略改进过程进行迭代更新，Actor最终输出最优控制决策。本发明方法实施简单有效，在每步策略更新中能够提前减小估计误差对策略更新的误导作用，提高了策略评估的准确性和策略的泛化能力。

技术关键词

强化学习方法离线超参数神经网络模型网络学习方法策略更新阶段机器人关节样本梯度方法批量梯度下降法估计误差数据

系统为您推荐了相关专利信息

一种图模互补驱动的电网故障智能辅助分析方法与系统

事理知识图谱电网故障处置电网故障智能告警事件信息辅助分析方法

一种建筑火灾报警方法及系统

火灾报警方法热扩散模型热成像物体样本

一种基于力学谱特征融合的皮革触感智能评价系统及方法

智能评价系统高精度力传感器智能评价方法皮革光学成像模块

数字人驱动模型的构建、数字人驱动方法、装置及设备

序列语音特征标记关键点识别解码器

一种预测企业财务数据模型构建方法及系统

财务数据模型构建方法企业指数收入

一种基于贝尔曼误差导向策略的离线强化学习方法

站点导航

APP 下载