摘要
本发明公开了基于改进深度确定性策略梯度算法的机器人运动控制方法,属于深度强化学习和机器人运动控制技术领域,通过自适应经验回放机制,对经验缓冲池中的经验数据进行筛选;通过经验数据的优先级采样策略,提升经验数据的利用效率;所述自适应经验回放机制,基于机器人的状态空间和动作空间的维度,设计多个经验缓冲区,并设计各缓冲区之间分类阈值的计算方式;所述经验数据的优先级采样策略,采用时间差分误差和即时奖励相结合的方式,计算出经验缓冲池中每个经验数据的样本优先级,将经验数据分发到不同的经验缓冲区。本发明加快收敛速度并提升最终运动控制策略的性能,增强机器人对复杂环境动态的适应能力和行为控制策略的稳定性。
技术关键词
仿真环境
机器人模型
数据
机器可读程序
分类阈值
机器人运动控制装置
机器人运动控制技术
算法
网络
控制策略
样本
双腿机器人
机制
机器人仿真
误差
缓冲
系统为您推荐了相关专利信息
路径优化方法
路径优化系统
传输路径
粒子群算法
遗传算法
心率
电信号
医学影像数据
深度学习模型
磁共振成像数据
校审方法
深度置信网络
电力工程数据
数字孪生模型
区块链存证