摘要
本发明公开了一种机器人运动控制方法及系统,方法包括:获取机器人运动前的环境信息,并根据所述环境信息,采用轨迹规划算法规划出所述机器人的最优轨迹;根据所述最优轨迹构建轨迹模仿奖励函数,并将所述轨迹模仿奖励函数加入至自适应动态奖励函数,得到目标自适应动态奖励函数;基于所述目标自适应动态奖励函数控制所述机器人对所述最优轨迹进行模仿;根据改进裁剪机制的PPO深度强化学习算法对所述机器人的运动轨迹进行训练和学习,最终得到所述机器人的最优控制策略。自适应动态奖励机制能够根据环境状况动态调整奖励权重,而参考轨迹奖励则提供了方向性指引,这种组合在保持轨迹精确性的同时,能灵活地应对环境的实时变化。
技术关键词
表达式
轨迹规划算法
动态
深度强化学习算法
关键点
加速度
障碍物
误差
机器人关节
覆盖率
策略更新
数值优化算法
因子
机制
系统为您推荐了相关专利信息
边缘网关设备
任务调度模型
混合能源系统
能源设备
局部时空特征
访客身份识别
多层级标签
画像特征
多维特征向量
指纹特征
动态管理方法
网元设备
智能模型
动态管理系统
核心
预测误差
样本
变量
遗传算法优化
拉丁超立方采样