摘要
本发明公开了一种基于深度强化学习的臂‑手机器人抓取方法,包括如下核心步骤:1)提出一种基于稀疏因果时间自注意力机制的策略网络结构;2)提出一种事后经验重组的方法,从而提升算法对成功样本的利用效率;3)设计了一种自适应保守Q学习价值网络更新方法,通过基于时序差分误差和平均奖励的自适应调节机制,动态调整正则化项的强度;该方法能有效提升算法收敛速度,并且在训练过程中平衡探索与稳定性需求,提升算法的稳定性。此外该方法的策略网络结构通过局部窗口稀疏连接和LSTM串联结构,有效增强对单步、局部及整体动作特征的建模能力,最终能有效提升抓取任务的成功率。
技术关键词
机器人抓取方法
注意力机制
深度强化学习
动作特征
网络更新方法
网络结构
掩码矩阵
阶段
轨迹
生成动作
多层感知机
复杂度
SAC算法
动态
新型策略
系统为您推荐了相关专利信息
空气处理机
故障诊断方法
故障诊断模型
故障分类模型
编码器
实体链接方法
多模态特征融合
图像特征向量
文本特征向量
链接数据集
命名实体识别方法
预训练语言模型
语义
记忆单元
深度学习网络
多级分类方法
图像
结节检测
空间金字塔池化
输出特征
高分辨率遥感图像
上下文特征
积层
遥感图像数据
语义分割网络