摘要
本申请公开了一种机器人运动策略模型优化方法及相关装置,涉及人工智能领域,该方法包括基于自主交互回放数据记忆库,对机器人运动策略模型进行初步训练,得到初步训练的机器人运动策略模型;根据第二机器人执行任务时的情况,判断是否有不满足要求的场景;若有,则针对不满足要求的场景,基于混合交互回放数据记忆库,对初步训练的机器人运动策略模型进行再训练,得到训练好的机器人运动策略模型;本申请针对初步训练的机器人运动策略模型执行任务不符合要求的场景,收集人的演示数据,从而有针对性的进行后混合训练,从而能够使机器人运动策略模型更快地达到训练要求,提升机器人运动策略模型的训练效率,缩短训练周期,降低训练成本。
技术关键词
机器人
模型优化方法
策略
数据
深度Q学习
记忆
运动
样本
门控循环单元
传播算法
时序
参数
场景
计算机程序产品
处理器
网络结构
计算机设备
模块
存储器