一种基于近端对抗约束策略搜索的离线强化学习方法

AITNT
正文
推荐专利
一种基于近端对抗约束策略搜索的离线强化学习方法
申请号:CN202411024892
申请日期:2024-07-29
公开号:CN119005289B
公开日期:2025-03-18
类型:发明专利
摘要
本发明公开了一种基于近端对抗约束策略搜索的离线强化学习方法。首先通过训练的高级行为策略提供服从静态离线数据集分布但优于静态离线数据集内动作的样本外高级行为动作,作为策略约束的参考动作,提高策略约束效率;然后在静态离线数据集内动作和高级行为动作处对约束策略搜索目标进行泰勒展开近似,构建学习策略在两个足够小动作近端的对抗补偿式点‑邻域样本高效搜索,允许学习策略主动选择有限偏离静态离线数据集的分布外动作。本发明通过提供可靠的参考动作和低方差的梯度估计,可以有效选择分布外动作,突破点‑点策略约束禁止选择分布外动作的决策性能限制,缩小学习策略与最优策略的性能差异。
技术关键词
强化学习方法 离线 随机梯度下降 策略更新 损失函数设计 机器人 神经网络参数 数据 搜索规则 邻域 样本 关节 力矩 决策 噪声 速度 尺寸
系统为您推荐了相关专利信息
1
不依赖参数模型的基于动态矩阵控制的动态推力重建方法
动态矩阵控制算法 推力 周期 序列 参数
2
一种基于超声成像的灵巧手遥操作方法及系统
强化学习方法 灵巧手 超声系统 轻量化卷积神经网络 成像
3
DMLP时序模型的实现方法、装置、电子设备及存储介质
时序 多步预测方法 多层感知机 数据处理模块 在线
4
面向列车安全风险识别的自适应知识获取模型
知识获取模型 列车 风险 知识获取方法 注意力机制
5
基于大模型知识增强的交互式临床决策支持系统与方法
临床决策支持系统 医疗知识图谱 强化学习模型 电子病历系统 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号