摘要
本发明公开了一种基于时序任务持续强化学习的机械臂抓取策略优化方法,包括步骤1:收集机械臂在执行到达任务时的机械臂的状态向量及目标位置;步骤2:构建深度强化学习的神经网络模型;步骤3:根据机械臂在执行序列任务的到达任务时的机械臂的状态向量及目标位置训练网络模型,得到模型Ⅰ;步骤4:机械臂执行模型Ⅰ,当到达目标位置时,进行抓取任务的训练,得到模型Ⅱ;步骤5:使用模型Ⅰ对模型Ⅱ进行蒸馏得到模型Ⅲ,得到优化后的机械臂抓取策略;步骤6:评估模型Ⅲ的性能,检查其在不同任务场景上的表现步骤以确认模型Ⅲ是否收敛。本发明在时序任务持续强化学习的机械臂抓取中表现出更快的收敛速度和更短的抓取时间。
技术关键词
深度强化学习
神经网络模型
策略优化方法
机械臂关节
序列
梯度下降算法
蒸馏
抓取动作
策略更新
仿真环境
参数
编码向量
时序
标签
数据
系统为您推荐了相关专利信息
智能控制方法
时间序列预测模型
密度聚类算法
空间分布特征
信号
建模方法
时序特征
特征融合网络
时空融合特征
长短期记忆网络
路口交通信号灯
交通信号灯管理系统
车辆图像数据
神经网络模型
配时方法
合金
命名实体识别
信息获取方法
机器学习模型
文本挖掘方法