摘要
本发明涉及机器人与自动化技术领域,公开了一种基于深度强化学习的四足机器人倒立摆稳定控制方法,具体包括:将一阶倒立摆固定在四足机器人的机身上;将四足机器人的运动建模为部分可观测马尔可夫决策过程,并通过基于演员‑评论家模型的邻近策略优化算法对部分可观测马尔可夫决策过程输出的策略进行训练;演员‑评论家模型包括策略网络和价值网络;在策略训练过程中采用域随机化技术,随机化环境的参数;综合考虑速度跟踪奖励、稳定性惩罚以及倒立摆惩罚项来设计奖励函数,以训练价值网络并提供监督信号。本发明设计了一种端到端的、基于混合状态估计的四足机器人倒立摆稳定方法,提升了机器人平衡能力和稳定性能。
技术关键词
四足机器人
状态估计量
稳定方法
策略
长短期记忆网络
机身
编码器
参数
信息熵
稳定控制方法
状态估计器
深度强化学习
机器人关节
决策
多层感知机
计算误差
速度
系统为您推荐了相关专利信息
航天设备
特征分析方法
路径特征
策略
导航系统数据
森林火灾预测方法
图像特征集
火灾特征
地点
长短期记忆网络
大型钢结构
焊缝
特征提取网络
特征融合网络
频率响应
硬件故障管理系统
诊断芯片
机制
策略
MCU芯片