摘要
本发明涉及一种用于空间非合作目标捕获的双臂分层控制方法和系统,通过双臂分层控制架构提升了控制精度,在下层通过PD控制器提供基础轨迹跟踪和扰动初期的稳定响应,在上层引入SAC强化学习策略网络实现对模型误差与环境扰动的在线残差补偿。上层SAC策略采用基于末端位置误差与姿态误差构建的多目标奖励函数,并引入动态优先级经验回放机制,使关键状态样本在训练过程中被更频繁采样,有效加快策略收敛速度,提升其在关键状态下的自适应控制能力,本发明弱化了对系统参数建模精度的依赖,控制系统在扰动的条件下仍具备稳定运行能力,具备良好的工程可实现性。
技术关键词
分层控制方法
学习控制器
双机械臂系统
姿态误差
分层控制系统
强化学习策略
样本
关节
位姿误差
建模误差
网络
电子设备
程序
可读存储介质
基础