摘要
本发明公开了一种基于深度强化学习(DRL),同时用于路径规划场景的高效渐进策略增强(EPPE)框架,该框架辅助DRL算法,用于解决DRL在路径规划中面临的训练效率和组合优化的双重挑战。该框架结合了稀疏奖励和过程奖励的优点,稀疏奖励帮助智能体实现全局最优策略,而过程奖励提供实时反馈,便于智能体及时调整策略。不仅显著提高策略学习的效率,还有效解决了过程奖励引起的奖励耦合问题,从而实现策略的全局最优。本发明可应用于机器人路径规划的研究领域,在自动驾驶和物流配送等应用领域中发挥重要作用。
技术关键词
深度强化学习方法
策略优化模型
机器人路径规划
动态窗口法
框架
阶段
决策
机制
障碍物
代表
算法
基线
基础
场景
定义
系统为您推荐了相关专利信息
数据字
深度学习框架
生成方法
生成装置
假设解码器
电磁驱动机构
电磁驱动方式
齿轮盒
空间细胞机器人
密封机构