摘要
本发明公开了一种改进深度强化学习PPO的七自由度机械臂轨迹规划方法,属于工业机器人智能控制技术领域。针对深度强化学习在七自由度冗余机械臂轨迹规划中面临的学习能力不好和收敛速度慢的问题,设计分阶段奖励函数,通过两个阶段逐步引导七自由度机械臂完成任务。设计一种分层经验回放机制,依据奖励值将训练过程中的经验分别存储在优先经验存储区和次级经验存储区;通过无偏采样策略平衡两类存储区的采样比例,提升经验样本的利用率,与传统的优先经验回放机制相比,该方法在减少计算量的同时,有效避免了训练过程中的过拟合问题。通过分阶段奖励函数和分层经验回放机制有效缩短七自由度机械臂在复杂环境中的学习时间,显著提高了收敛速度。
技术关键词
深度强化学习
冗余机械臂
控制机械臂运动
分阶段
七自由度机械臂
机械臂末端执行器
工业机器人智能控制技术
关节
存储结构
逆运动学
分层
机制
策略
规划
轨迹
障碍物
样本
系统为您推荐了相关专利信息
状态向量数据
风控模型
性能指标数据
贪婪算法
超参数优化方法
深度强化学习
节点
网络状态信息
迭代消息传递算法
神经网络参数
深度强化学习模型
自动规划方法
变电站通信网络
实时状态信息
深度Q网络
深度强化学习模型
洗涤剂投放量
策略
洗涤机
洗衣机
大豆胞囊线虫
动态监测方法
比率
风险评估模型
变量