摘要
本公开提供了一种基于深度强化学习的机器人运动控制模型训练方法及装置,涉及传感器及机器人技术领域。该方法包括:利用教师‑学生模型框架,对用于输出控制机器人运动的动作策略的策略网络进行基于深度强化学习的训练;其中,策略网络的训练过程还包括:通过线速度编码器编码机器人的历史线速度信息以生成第一潜在向量,并将第一潜在向量输入至策略网络进行辅助训练。本公开在动作决策时综合考虑机器人自身的运动趋势、状态变化轨迹与周围地形结构,实现了更加稳健、精确地控制策略输出。
技术关键词
机器人运动控制
模型训练方法
动作策略
控制机器人运动
运动状态信息
编码器
深度强化学习算法
网络
学生
计算机可读指令
教师
计算机程序代码