摘要
本发明提出了一种基于深度强化学习(DRL)的遥操作空间机械臂轨迹规划方法,有效解决了因通信延迟带来的轨迹规划难题。该方法包括:建立刚性机械臂的运动学模型和强化学习框架;构建包含主端、数据链和从端的遥操作框架;在主端采用延迟处理模块(DIP)处理通信延迟,确保状态和奖励的实时性;利用DRL决策模块更新智能体,基于经验回放池和动作回放池进行学习;通过智能体与环境的交互指导机械臂完成任务。本发明通过集成DRL到遥控框架中,强化了智能体的决策能力,尤其在固有延迟环境中表现出色,且在不同噪声和动力学参数条件下展现了良好的鲁棒性,无需额外参数调整。
技术关键词
深度强化学习
强化学习框架
决策
雅克比矩阵
历史轨迹数据
刚体运动学
映射方法
漂浮基座
策略
空间机器人系统
机械臂末端执行器
遥操作过程
SAC算法
空间机械臂
关节