摘要
本公开提供一种确定控制策略模型的方法、用于控制末端执行器的方法、用于控制末端执行器的设备、确定控制策略模型的装置、用于控制末端执行器的装置、电子设备、一种非易失性计算机可读存储介质、以及计算机程序产品。为了得到泛化性和鲁棒性高于第一控制策略模型的第二控制策略模型,本公开对第一控制策略模型通过强化学习的方案进一步调整以得到第二控制策略模型,并在调整过程中使用了特定的奖励分数,能够在保证控制策略模型在尽可能广泛地探索控制方案的情况下,避免在仿真环境内所训练的控制策略模型不符合物理约束,进而导致不能应用于物理环境中。
技术关键词
末端执行器
控制策略模型
多关节
非易失性计算机可读存储介质
对象
计算机可执行代码
接触点
计算机可执行指令
计算机程序产品
网络
处理器
场景
容器
物理
图像
仿真环境
作用力
电子设备
模块