摘要
本发明公开了一种任务适应性兵棋推演模型的快速训练与迁移方法,包括:获取当前环境的全动作空间;设计由单算子奖励、团队奖励和环境奖励构成的原始奖励,并基于全动作空间和原始奖励,采用带有经验回放池的近端策略优化算法进行强化学习训练,得到基础网络模型;冻结基础网络模型中底层网络,微调基础网络模型中高层网络,得到调整后的基础网络模型;设计由原始奖励、修正奖励、好奇心奖励和负奖励构成调整后的奖励,并基于调整后的基础网络模型和调整后的奖励,采用带有经验回放池的近端策略优化算法进行强化学习训练,得到迁移后的基础网络模型。本发明提升了兵棋推演系统在多任务作战场景中的决策灵活性和适应性,能够快速响应新的任务需求。
技术关键词
迁移方法
网络
策略
基础
参数
动态
掩模
指数
算法
推演系统
团队
预测误差
因子
多任务
决策
场景
元素
速率
系统为您推荐了相关专利信息
虚拟储能
优化调度方法
协同调度策略
电力现货交易
混合储能系统
远程计量方法
协方差矩阵
时延
数字时钟
LSTM神经网络
三维网格模型
可变形网格
水印方法
水印嵌入
顶点