摘要
本发明公开了一种空间连续型绳驱臂的控制方法,包括:对空间连续型绳驱臂搭建仿真环境;构建空间连续型绳驱臂的强化学习框架,并初始化强化学习框架的经验回放池以及强化学习模型;获取多条专家轨迹,根据多条专家轨迹训练行为克隆模型;向经验回放池中预填入优质数据;利用强化学习模型与仿真环境进行在线交互,并将产生的交互数据存入经验回放池;从经验回放池提取训练数据,在行为克隆模型的辅助下更新强化学习模型,更新完成后,采用更新完成后的强化学习模型对空间连续型绳驱臂进行控制。本发明既可以保留稀疏奖励函数设计简单的优势,又能够有效解决因奖励信号稀疏导致的策略更新方向不明确、收敛困难等问题。
技术关键词
强化学习模型
连续型
强化学习框架
仿真环境
轨迹
时序
漂浮基座
驱动单元
可读存储介质
网络
策略更新
数据
在线
计算机
表达式
蒸馏
批量
处理器
系统为您推荐了相关专利信息
软件调试方法
轨迹
软件调试装置
芯片调试技术
日志
强化学习模型
策略
无人机飞行区域
路径规划方法
节点
跟驰车辆
混合交通流
加速度
车辆运动信息
LSTM模型