一种有序多人Stackelberg纳什博弈的逆强化学习算法

AITNT
正文
推荐专利
一种有序多人Stackelberg纳什博弈的逆强化学习算法
申请号:CN202511024205
申请日期:2025-07-24
公开号:CN120893515A
公开日期:2025-11-04
类型:发明专利
摘要
本发明涉及一种有序多人Stackelberg纳什博弈的逆强化学习算法,包括建立专家玩家的Stackelberg纳什博弈系统,并设计惩罚函数;基于最优化控制理论;建立学习者玩家的Stackelberg纳什博弈系统;设计基于模型的逆强化学习算法;针对异质控制输入问题,设计了部分无模型逆强化学习算法,并给出基于神经网络实现该算法的过程。本发明的优点:提出了基于模型的逆强化学习算法,用于学习专家的奖励函数,有最优控制学习阶段和逆最优控制学习阶段,将IOC作为一个子问题进行求解,开发了适用于异质控制输入的部分无模型逆强化学习算法,学习者的每个玩家的轨迹与专家的轨迹完全相同。
技术关键词
强化学习算法 玩家 非线性动态系统 专家系统 异质 均衡策略 轨迹 理论 阶段 定义 方程 决策 代表
系统为您推荐了相关专利信息
1
一种AI大数据实时处理与分析的方法及系统
AI大数据 模式识别 数据结构框架 机器学习算法 策略
2
传染病智能监测预警处置系统及方法
预警模型 特征工程技术 预警处置系统 地理位置信息 重要性评估方法
3
一种扫地机器人自适应多地形攀爬方法
攀爬方法 扫地机器人 多地形 主动悬挂系统 三维地形数据
4
一种基于多模态信息融合的移动机器人避障策略优化方法
移动机器人避障 多模态信息融合 策略优化方法 SAC算法 多模态融合方法
5
自定义游戏破坏效果的方法、装置及程序产品
分块 物体 资产 关系 游戏
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号