摘要
本公开提供了一种面向环境存在扰动的追逃博弈策略求解方法。该方法根据追捕者和逃跑者的策略集合分别设置其在不同决策点的初始策略,遍历博弈树获得序列形式的策略变量初值和辅助变量初值;在迭代优化过程中,在每个时间步,追捕者和逃跑者分别利用其获得的上一个时间步的反馈信息更新决策变量;遍历博弈树分别获得追捕者和逃跑者在当前时间步的反馈信息;追捕者和逃跑者利用在当前时间步获得的反馈信息更新辅助变量。其中,决策变量和辅助变量的更新公式中加入正则化项,利用正则化技术稳定随机噪声的负面影响,保证算法的收敛性能,无需计算平均策略即可保证算法的收敛,降低了计算和存储负担,提升了算法效率,实现更快的收敛。
技术关键词
变量
决策
策略
信息更新
追逃博弈
序列
正则化技术
矩阵
随机噪声
算法
强度
负担
阶段
系统为您推荐了相关专利信息
预后预测模型
标志物
基因
风险评估模型
随机森林
序列
残差预测
深度学习网络
资源管理方法
单周期
缺陷分类方法
支持向量机方法
非线性支持向量
芯片表面缺陷
算法