摘要
本发明公开了一种机器人运动控制方法及系统,方法通过采集机器人当前状态信息,将其输入到包含状态编码器、环境动力学模型、奖励模型、策略网络和价值网络的BMPC模型中。状态信息经编码后,通过策略网络选取一部分候选动作序列,从高斯分布中采样一部分候选动作序列,环境动力学模型预测所有候选动作序列的未来状态,奖励模型则预测这些状态的奖励值。再根据奖励值计算所有动作序列的累积奖励,通过累积奖励最高的动作序列更新高斯分布的参数,多次采样迭代后,选择累积奖励最高的动作序列的首个动作作为当前控制动作,同时记录为专家策略。机器人执行该动作后,重复上述步骤直至完成预设任务;提高了机器人在连续运动控制任务中的效率与性能。
技术关键词
状态编码器
机器人
策略
序列
网络
指示计算机执行
计算机程序产品
可读存储介质
数据采集模块
处理器
存储器
因子
参数
电子设备
指令