摘要
本发明公开了一种基于两阶段解耦离线强化学习的机器人路径规划模型及方法,属于机器智能决策与控制技术领域。该方法包括一种基于两阶段解耦离线强化学习的神经网络模型,该模型利用Transformer架构避免传统基于策略约束方法和基于值函数正则方法存在的分布外泛化问题,并修改现有的基于Transformer架构强化学习方法,使预测状态与预测动作两阶段解耦,令智能体不局限于模仿数据集中轨迹与动作组合,而是能够学习到具有高期望回报的状态,通过拼接次优轨迹和状态组合实现超越数据集中最优轨迹的行为策略。该方法旨在解决现有机器人路径规划方法计算资源需求高,模型泛化能力差,模型应对不确定性和容易陷入局部最优等问题。
技术关键词
机器人路径规划
两阶段
离线
机器智能决策
高性能机器人
强化学习方法
路径规划算法
构建训练集
超参数
约束方法
梯度方法
数据
神经网络模型
注意力
轨迹
控制策略
系统为您推荐了相关专利信息
在线优化方法
无刷双馈电机
系统控制参数
定子
变频调速系统
低剂量CT图像
CT图像去噪
图像去噪模型
生成对抗网络
编码器
暖通空调节能
强化学习模型
优化控制方法
暖通空调系统
阀门开度控制
能力评估模型
滑动窗口机制
能力评估方法
多模态
离线
更新地图数据
地图更新
巡检数据
数据处理方法
关键帧