摘要
公开了一种基于准度量及规划的多目标强化学习方法,包括:构建表征函数、准度量值函数和隐空间动力学模型,并利用从环境交互中采样的转移数据和目标状态进行联合训练,其中,准度量值函数被优化以拟合状态到目标的成本,并作为距离度量标准用于优化隐空间动力学模型;在决策时,利用MPC框架,并结合CEM进行动作选择优化,该过程利用隐空间动力学模型预测未来轨迹,使用准度量值函数评估预测轨迹的成本,并根据CEM优化得到的最低成本规划结果确定应用于当前状态的单个动作。本公开通过学习准度量成本函数和隐空间模型,并结合模型预测控制规划,能够有效应对稀疏奖励,显著提高多目标强化学习的样本效率和最终性能。
技术关键词
度量
强化学习方法
前馈神经网络
序列
轨迹
规划
数据
策略
参数
数学
决策
效应
像素
因子
样本
框架
关系