摘要
本发明公开了一种基于条件扩散模型挑选技能的机器人双层控制方法,将原先时间跨度漫长的强化学习轨迹通过双层策略构筑,将其抽象成为上层策略选择技能执行的较短时间跨度的任务;在策略预训练阶段,引入额外条件将机器人位姿状态以及选取技能进行了平衡的绑定,从而提高了机器人在强化学习环境中的探索速率,使得机器人智能体能够在更短时间内组合不同的技能以完成任务;在策略微调阶段引入强化学习PPO算法以最大化累计奖赏为目标,不断微调上层技能选取策略的技能选取策略,直至模型收敛。本发明能够在长时间跨度的机器人任务上将原先的动作空间下采样的较小的技能空间,并绑定不同位姿状态和其技能的相关性,从而减少技能探索空间以加速探索。
技术关键词
双层控制方法
机器人位姿
序列
控制策略模型
强化学习环境
编码器
阶段
代表
轨迹特征
解码器
策略更新
数据
网络
算法
切片
系统为您推荐了相关专利信息
抑郁情绪分析方法
数据特征提取
时间序列信息
手机
传感器特征
仿真数据
非临时性计算机可读存储介质
LSTM模型
生成规则
编码器