摘要
本发明提供了一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法。先通过引入改进型三记忆库的记忆库结构,结合在机器人运动规划技能训练中不同阶段的特征,进行记忆库两两组合采样的方式进行针对性经验回放。随后,在训练后期,采用探索记忆库经验迁移的方式,将筛选后得到的优质探索经验替换原有的专家经验,以达到自学习、避免过拟合的目的。最后,对探索记忆库中连续存储的小范围经验使用进步趋势评估方法进行训练评估,并将评估结果表示为当前机器人的进步奖励,从而在不影响学习质量的前提下提升机器人的任务技能学习效率。该方法能够在复杂障碍物场景中实现有效快速的运动规划,为机器人技能在不同场景中的泛化提供原理性支持。
技术关键词
学习训练方法
记忆
深度强化学习算法
末端执行器
阶段
机器人运动规划
虚拟仿真环境
障碍物场景
识别机器人
神经网络参数
训练神经网络
指标
示教数据
标志位
系统为您推荐了相关专利信息
知识点标注方法
矩阵
文本
大语言模型
长短期记忆网络