摘要
本发明实施例提供了一种基于三级玩家主从博弈的机器人决策规划方法及装置,该方法包括:根据机器人系统面对的机器人决策规划场景,构建机器人系统对应的三级玩家主从博弈决策模型;在针对三级玩家主从博弈决策模型的三级Stackelberg动态学习中,较高级玩家基于隐式微分估计较低级玩家最佳响应的全导或偏导,结合较低级玩家策略与自身策略的映射关系,求取自身代价函数的全微分,为所有玩家分别调用在给定较高级玩家策略后的代价函数的全微分,进而通过梯度下降得到新的策略,之后基于此对机器人系统进行机器人决策规划。以此方式,可以基于三级玩家主从博弈决策模型来提高机器人决策规划效果。
技术关键词
玩家
机器人系统
决策规划方法
策略
场景
动态
计算机
电子设备
处理器通信
指令
可读存储介质
变量
关系
存储器
模块
代表
系统为您推荐了相关专利信息
LDPC码译码
低密度奇偶校验
译码方法
信噪比
策略
碰撞预警方法
动态场景信息
车辆前方区域
汽车
算法