一种有序多人Stackelberg纳什博弈的逆强化学习算法

正文

推荐专利

申请号：CN202511024205

申请日期：2025-07-24

公开号：CN120893515A

公开日期：2025-11-04

类型：发明专利

摘要

本发明涉及一种有序多人Stackelberg纳什博弈的逆强化学习算法，包括建立专家玩家的Stackelberg纳什博弈系统，并设计惩罚函数；基于最优化控制理论；建立学习者玩家的Stackelberg纳什博弈系统；设计基于模型的逆强化学习算法；针对异质控制输入问题，设计了部分无模型逆强化学习算法，并给出基于神经网络实现该算法的过程。本发明的优点：提出了基于模型的逆强化学习算法，用于学习专家的奖励函数，有最优控制学习阶段和逆最优控制学习阶段，将IOC作为一个子问题进行求解，开发了适用于异质控制输入的部分无模型逆强化学习算法，学习者的每个玩家的轨迹与专家的轨迹完全相同。

技术关键词

强化学习算法玩家非线性动态系统专家系统异质均衡策略轨迹理论阶段定义方程决策代表

系统为您推荐了相关专利信息

一种AI大数据实时处理与分析的方法及系统

AI大数据模式识别数据结构框架机器学习算法策略

传染病智能监测预警处置系统及方法

预警模型特征工程技术预警处置系统地理位置信息重要性评估方法

一种扫地机器人自适应多地形攀爬方法

攀爬方法扫地机器人多地形主动悬挂系统三维地形数据

一种基于多模态信息融合的移动机器人避障策略优化方法

移动机器人避障多模态信息融合策略优化方法 SAC算法多模态融合方法

自定义游戏破坏效果的方法、装置及程序产品

分块物体资产关系游戏

一种有序多人Stackelberg纳什博弈的逆强化学习算法

站点导航

APP 下载