摘要
本发明公开了一种基于零和博弈与强化学习的车辆混合攻击安全控制方法,包括:建立包含混合攻击的控制系统数学模型;引入包含混合攻击的控制系统的状态向量和外部影响向量并构建增广系统;定义成本函数;利用最优性原理,推导零和博弈问题的贝尔曼方程并建立零和博弈的优化问题;基于零和博弈的优化问题构建HJI方程并求解HJI方程,通过评论家神经网络和行动者神经网络获得控制策略和攻击策略的最优解。本发明通过将状态观测器、零和博弈框架以及强化学习方法相结合,形成一种混合学习控制策略,能够更加有效地抑制攻击的影响,降低系统性能下降的风险,为解决自动驾驶车辆在遭受协同攻击时的控制问题提供了全新的思路。
技术关键词
安全控制方法
表达式
控制策略
状态观测器
方程
近似误差
数学模型
检测控制系统
强化学习方法
矩阵
观测误差
重构误差
定义
车辆
思路
信号