一种基于准度量及规划的多目标强化学习方法

AITNT
正文
推荐专利
一种基于准度量及规划的多目标强化学习方法
申请号:CN202510593599
申请日期:2025-05-08
公开号:CN120597980A
公开日期:2025-09-05
类型:发明专利
摘要
公开了一种基于准度量及规划的多目标强化学习方法,包括:构建表征函数、准度量值函数和隐空间动力学模型,并利用从环境交互中采样的转移数据和目标状态进行联合训练,其中,准度量值函数被优化以拟合状态到目标的成本,并作为距离度量标准用于优化隐空间动力学模型;在决策时,利用MPC框架,并结合CEM进行动作选择优化,该过程利用隐空间动力学模型预测未来轨迹,使用准度量值函数评估预测轨迹的成本,并根据CEM优化得到的最低成本规划结果确定应用于当前状态的单个动作。本公开通过学习准度量成本函数和隐空间模型,并结合模型预测控制规划,能够有效应对稀疏奖励,显著提高多目标强化学习的样本效率和最终性能。
技术关键词
度量 强化学习方法 前馈神经网络 序列 轨迹 规划 数据 策略 参数 数学 决策 效应 像素 因子 样本 框架 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号