一种基于近端对抗约束策略搜索的离线强化学习方法

正文

推荐专利

申请号：CN202411024892

申请日期：2024-07-29

公开号：CN119005289B

公开日期：2025-03-18

类型：发明专利

摘要

本发明公开了一种基于近端对抗约束策略搜索的离线强化学习方法。首先通过训练的高级行为策略提供服从静态离线数据集分布但优于静态离线数据集内动作的样本外高级行为动作，作为策略约束的参考动作，提高策略约束效率；然后在静态离线数据集内动作和高级行为动作处对约束策略搜索目标进行泰勒展开近似，构建学习策略在两个足够小动作近端的对抗补偿式点‑邻域样本高效搜索，允许学习策略主动选择有限偏离静态离线数据集的分布外动作。本发明通过提供可靠的参考动作和低方差的梯度估计，可以有效选择分布外动作，突破点‑点策略约束禁止选择分布外动作的决策性能限制，缩小学习策略与最优策略的性能差异。

技术关键词

强化学习方法离线随机梯度下降策略更新损失函数设计机器人神经网络参数数据搜索规则邻域样本关节力矩决策噪声速度尺寸

系统为您推荐了相关专利信息

不依赖参数模型的基于动态矩阵控制的动态推力重建方法

动态矩阵控制算法推力周期序列参数

一种基于超声成像的灵巧手遥操作方法及系统

强化学习方法灵巧手超声系统轻量化卷积神经网络成像

DMLP时序模型的实现方法、装置、电子设备及存储介质

时序多步预测方法多层感知机数据处理模块在线

面向列车安全风险识别的自适应知识获取模型

知识获取模型列车风险知识获取方法注意力机制

基于大模型知识增强的交互式临床决策支持系统与方法

临床决策支持系统医疗知识图谱强化学习模型电子病历系统节点

一种基于近端对抗约束策略搜索的离线强化学习方法

站点导航

APP 下载