摘要
本发明公开了一种基于视频生成的机器人运行奖励生成系统及方法,包括:根据机器人的视觉观测图像生成隐空间编码图像的图像编码网络,隐空间编码图像包括初始隐空间编码图像和当前隐空间编码图像;根据生成的初始隐空间编码图像预测机器人运行轨迹视频的视频生成扩散模型网络;根据当前隐空间编码图像上的机器人状态和预测的机器人运行轨迹视频上的机器人状态计算出当前隐空间编码图像上每个机器人状态的奖励,智能体根据计算的奖励,学习到最大化期望累积奖励的策略,得到当前视觉观测图像的奖励,指导机器人的任务执行的奖励模块。本发明用于计算机器人视觉观测图像的奖励,不依赖机器人任务执行的环境反馈,适用于各种机器人任务执行。
技术关键词
生成系统
视频
预测机器人
轨迹
图像编码器
模块
收集机器人
机器人视觉
输入解码器
生成对抗网络
生成方法
策略