摘要
本发明公开了一种世界模型和智能体训练方法、机器人及其控制方法和系统。本发明通过引入任务相关的上下文信息,激活世界模型对特定场景动力学的预测能力。这使得单一模型能够适应不同场景下的动力学特性,有效降低了动力学模型误差。利用元状态正则化学习了一个统一的、仅包含任务核心信息的隐状态表示,确保模型提取的是与任务目标强相关的特征,过滤掉场景间的无关差异,从而减小状态表示误差,并提升了表示的通用性。通过元价值正则化缓解了动力学模型学习与策略学习目标不一致的问题,这使得模型在学习动力学时,能主动考虑其对后续策略学习的价值,从而使两者目标更为对齐。
技术关键词
智能体训练方法
参数
模型训练方法
解码函数
环境状态预测
解码信息
机器人控制方法
机器人控制系统
编码
模型更新
训练智能体
模型误差
样本
场景
存储器
策略
处理器
核心