摘要
本发明涉及空间机械臂控制技术领域,具体涉及一种面向空间机械臂的抓取与放置任务的基于同伦的元强化训练方法,包括:获取元任务行为空间、元任务状态空间以及元任务奖励函数;构建元强化训练的同伦任务序列;获取每个同伦任务下更新后的SAC神经网络参数,获取更新后的目标元神经网络参数及更新后的Meta‑SAC算法的目标神经网络模型;将机械臂的当前状态更新为下一状态。本发明相比于传统的强化学习以及迁移学习方法,实现了更高的成功率以及更快的收敛速度,在空间机械臂的控制领域具有更好的表现。
技术关键词
强化训练方法
SAC算法
神经网络参数
机械臂末端执行器
空间机械臂控制技术
神经网络模型
序列
策略
表达式
迁移学习方法
状态更新
元学习算法
坐标
系统为您推荐了相关专利信息
迟滞模型
LSTM神经网络
特性测试系统
实时控制器
动态
BP神经网络算法
上位机软件
电池管理系统
BP神经网络模型
神经网络参数
LSTM神经网络
轨道
识别方法
神经网络训练
数据