摘要
本发明公开了一种多目标进化算法辅助的多智能体强化学习的机器人行走控制方法,包括:1.建立多智能体强化学习框架中的行动者网络actor和批评家网络critic;2.将机器人的所有行走策略建立成种群,使用集中式策略扩展价值函数近似器来拟合种群个体的值,并计算其损失函数;4.使用策略新颖度和强化学习奖励值作为种群个体的双目标函数并计算相应值;5.使用多目标进化算法进行非支配排序,得到帕累托解集,筛选精英个体并进行交叉产生子代以得到最佳策略。本发明能解决机器人行走不平稳的问题,在一定的训练时间内,探索出更多行走策略来调整机器人的速度和动作,从而能使机器人的关节相互配合,平稳地进行行走。使最终机器人进行平稳地行走。
技术关键词
策略
进化算法
控制机器人行走
多智能体强化学习
多智能体协作
网络
可读存储介质
代表
排序算法
处理器
团队
存储器
矩阵
多任务
计算机
定义
电子设备
程序
系统为您推荐了相关专利信息
振动故障诊断系统
融合深度学习
模块
异构特征
数据同步
无人机集群
原始观测数据
两阶段
虚拟仿真环境
注意力机制
售票机
安全监控模块
防护系统
数据分析模块
风险评估模型