摘要
一种基于双重利普希茨约束的四足机器人步态模仿学习平滑优化方法和装置,其方法包括:引入利普希茨连续方法,构建适合于强化学习框架的梯度约束函数,设定强化学习网络的梯度连续约束条件;构建足部步态模仿判别器梯度约束,重新设计基于强化学习的技能模仿判别器网络,在腿部技能判别生成端设定利普希茨约束参数;设计利普希茨连续的策略动作输出网络;在主策略网络端构建动作输出利普希茨约束条件,设定策略动作输出梯度约束参数;结合判别器网络和主策略网络输出,构建双重利普希茨约束目标;设计步态模仿联合优化目标函数,共同组合形成梯度联合总约束;设定相应的训练参数,训练整体步态模仿学习框架。
技术关键词
平滑优化方法
机器人步态
策略
强化学习网络
强化学习框架
连续性
四足机器人
参数
训练智能
优化装置
关节
定义
命令
处理器
可读存储介质
存储器
速度
系统为您推荐了相关专利信息
数据间关联关系
深度强化学习
设备状态数据
异构硬件平台
决策
配电网储能设备
充放电控制方法
电池健康状态
充放电策略
历史负荷数据
火力发电机组
负荷预测系统
滞后特征
特征工程
环境监测系统
数字化管理方法
数字孪生模型
物品检测
物品特征
三维空间模型
数据安全共享方法
能源管理
智能传感器
能耗
访问控制模型