摘要
本发明公开了一种基于近端对抗约束策略搜索的离线强化学习方法。首先通过训练的高级行为策略提供服从静态离线数据集分布但优于静态离线数据集内动作的样本外高级行为动作,作为策略约束的参考动作,提高策略约束效率;然后在静态离线数据集内动作和高级行为动作处对约束策略搜索目标进行泰勒展开近似,构建学习策略在两个足够小动作近端的对抗补偿式点‑邻域样本高效搜索,允许学习策略主动选择有限偏离静态离线数据集的分布外动作。本发明通过提供可靠的参考动作和低方差的梯度估计,可以有效选择分布外动作,突破点‑点策略约束禁止选择分布外动作的决策性能限制,缩小学习策略与最优策略的性能差异。
技术关键词
强化学习方法
离线
随机梯度下降
策略更新
损失函数设计
机器人
神经网络参数
数据
搜索规则
邻域
样本
关节
力矩
决策
噪声
速度
尺寸
系统为您推荐了相关专利信息
强化学习方法
灵巧手
超声系统
轻量化卷积神经网络
成像
时序
多步预测方法
多层感知机
数据处理模块
在线
知识获取模型
列车
风险
知识获取方法
注意力机制
临床决策支持系统
医疗知识图谱
强化学习模型
电子病历系统
节点