摘要
本发明涉及模型训练技术领域,具体是涉及一种有模型深度强化学习方法、装置、设备及介质。本发明基于智能体工作的原始环境图像分析出差异图像,该差异图像代表了环境的动态变化信息,然后基于该差异图像和原始环境图像训练世界模型,使得世界模型能够学习到复杂变化的环境。最后使用经过学习而形成的已训练世界模型为智能模型的训练提供模拟环境。由于世界模型具备生成动态变化的复杂虚拟环境能力,因此智能体的智能模型在世界模型提供的模拟环境进行学习,能够学习到应对复杂变化环境的措施。
技术关键词
深度强化学习方法
智能模型
随机编码器
变量
动态
掩码矩阵
模型训练技术
标志
调制器
模型训练模块
机器人
图像处理模块
可读存储介质
终端设备
解码器
处理器
序列