摘要
本发明公开了一种基于深度强化学习的臂‑手机器人抓取方法,包括如下核心步骤:1)提出一种基于稀疏因果时间自注意力机制的策略网络结构;2)提出一种事后经验重组的方法,从而提升算法对成功样本的利用效率;3)设计了一种自适应保守Q学习价值网络更新方法,通过基于时序差分误差和平均奖励的自适应调节机制,动态调整正则化项的强度;该方法能有效提升算法收敛速度,并且在训练过程中平衡探索与稳定性需求,提升算法的稳定性。此外该方法的策略网络结构通过局部窗口稀疏连接和LSTM串联结构,有效增强对单步、局部及整体动作特征的建模能力,最终能有效提升抓取任务的成功率。
技术关键词
机器人抓取方法
注意力机制
深度强化学习
动作特征
网络更新方法
网络结构
掩码矩阵
阶段
轨迹
生成动作
多层感知机
复杂度
SAC算法
动态
新型策略
系统为您推荐了相关专利信息
自动派单系统
政务
多模态数据融合
环境噪声抑制
生成技术
变电站设备图像
样本
标注设备
边缘检测算法
噪声数据
绝缘子缺陷
训练样本集
图像块
注意力机制
输电线路巡检技术
连续小波变换
轴承剩余寿命预测
轴承健康
残差卷积神经网络
双线性插值算法