摘要
本发明提供一种基于Transformer经验增强与多分支策略网络的移动机器人导航方法,包括将获取的当前环境状态信息输入改进的PDQN算法中的Q网络和动作专属参数策略分支网络;所述Q网络根据当前环境状态信息评估预定义的所有离散动作在当前状态下的Q值,选择当前最高预期回报的离散动作;所述动作专属参数策略分支网络针对当前最高预期回报的离散动作,生成对应的连续参数;将当前最高预期回报的离散动作和对应的连续参数组合成完整的动作化参数,作为移动机器人在当前状态下的最优动作决策;通过执行所述最优动作决策控制移动机器人进行运动。本发明提升了算法的收敛速度和学习效率,实现了自主、高效且稳定的导航控制。
技术关键词
环境状态信息
移动机器人
分支
策略
参数
特征提取器
序列
网络模块
决策
样本
前馈神经网络
计算机存储介质
回放模块
处理器
组合模块
编码器
算法
系统为您推荐了相关专利信息
螺旋弯曲波导
阿基米德螺旋线
微腔
集成光子芯片
谐振
肖特基二极管
射频传输线
分支线耦合器
薄膜电阻
偏置电路