一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法

正文

推荐专利

申请号：CN202510128959

申请日期：2025-02-05

公开号：CN119871415B

公开日期：2025-10-10

类型：发明专利

摘要

本发明提供了一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法。先通过引入改进型三记忆库的记忆库结构，结合在机器人运动规划技能训练中不同阶段的特征，进行记忆库两两组合采样的方式进行针对性经验回放。随后，在训练后期，采用探索记忆库经验迁移的方式，将筛选后得到的优质探索经验替换原有的专家经验，以达到自学习、避免过拟合的目的。最后，对探索记忆库中连续存储的小范围经验使用进步趋势评估方法进行训练评估，并将评估结果表示为当前机器人的进步奖励，从而在不影响学习质量的前提下提升机器人的任务技能学习效率。该方法能够在复杂障碍物场景中实现有效快速的运动规划，为机器人技能在不同场景中的泛化提供原理性支持。

技术关键词

学习训练方法记忆深度强化学习算法末端执行器阶段机器人运动规划虚拟仿真环境障碍物场景识别机器人神经网络参数训练神经网络指标示教数据标志位

系统为您推荐了相关专利信息

基于强化学习的水声通信分布式帧同步方法及系统

同步方法信号获取模块均衡算法多通道处理器

基于课程知识图谱与知识蒸馏的命题方法和装置及介质

知识点标签背景材料图谱命题方法学生

一种能量自平衡功率模块极端工况的试验方法及相关装置

工况解锁阶段支路 IGBT器件

一种基于超图知识增强的多源融合知识点标注方法及装置

知识点标注方法矩阵文本大语言模型长短期记忆网络

一种应用于外科手术的超声换能器

超声换能器超声刀头变幅杆杆件腹腔镜端口

一种基于阶段性采样与进步趋势奖励的机器人强化学习训练方法

站点导航

APP 下载