一种基于准度量及规划的多目标强化学习方法

正文

推荐专利

申请号：CN202510593599

申请日期：2025-05-08

公开号：CN120597980A

公开日期：2025-09-05

类型：发明专利

摘要

公开了一种基于准度量及规划的多目标强化学习方法，包括：构建表征函数、准度量值函数和隐空间动力学模型，并利用从环境交互中采样的转移数据和目标状态进行联合训练，其中，准度量值函数被优化以拟合状态到目标的成本，并作为距离度量标准用于优化隐空间动力学模型；在决策时，利用MPC框架，并结合CEM进行动作选择优化，该过程利用隐空间动力学模型预测未来轨迹，使用准度量值函数评估预测轨迹的成本，并根据CEM优化得到的最低成本规划结果确定应用于当前状态的单个动作。本公开通过学习准度量成本函数和隐空间模型，并结合模型预测控制规划，能够有效应对稀疏奖励，显著提高多目标强化学习的样本效率和最终性能。

技术关键词

度量强化学习方法前馈神经网络序列轨迹规划数据策略参数数学决策效应像素因子样本框架关系

一种基于准度量及规划的多目标强化学习方法

站点导航

APP 下载