摘要
本发明涉及一种有序多人Stackelberg纳什博弈的逆强化学习算法,包括建立专家玩家的Stackelberg纳什博弈系统,并设计惩罚函数;基于最优化控制理论;建立学习者玩家的Stackelberg纳什博弈系统;设计基于模型的逆强化学习算法;针对异质控制输入问题,设计了部分无模型逆强化学习算法,并给出基于神经网络实现该算法的过程。本发明的优点:提出了基于模型的逆强化学习算法,用于学习专家的奖励函数,有最优控制学习阶段和逆最优控制学习阶段,将IOC作为一个子问题进行求解,开发了适用于异质控制输入的部分无模型逆强化学习算法,学习者的每个玩家的轨迹与专家的轨迹完全相同。
技术关键词
强化学习算法
玩家
非线性动态系统
专家系统
异质
均衡策略
轨迹
理论
阶段
定义
方程
决策
代表
系统为您推荐了相关专利信息
AI大数据
模式识别
数据结构框架
机器学习算法
策略
预警模型
特征工程技术
预警处置系统
地理位置信息
重要性评估方法
攀爬方法
扫地机器人
多地形
主动悬挂系统
三维地形数据
移动机器人避障
多模态信息融合
策略优化方法
SAC算法
多模态融合方法