摘要
本申请公开了一种决策模型训练方法、装置、设备及介质。所述方法包括:获取策略互动中与非合作方的多局竞争中的历史对局数据;利用同策略多智能体优先经验回放算法选取目标训练样本集并根据目标训练样本集对多个预设模型进行迭代训练;利用联盟学习算法将多个训练的预设模型确定为联盟中的不同决策角色,得到多个不同策略风格的备选决策模型;根据多局竞争中的历史对局数据,利用多臂老虎机算法进行非合作方建模并从多个备选决策模型中动态选择对阵知识AI的目标决策模型。根据本申请实施例,能够提升模型应用到策略互动的性能,从而提升对局胜率。
技术关键词
决策模型训练方法
计算机程序指令
多臂老虎机
策略
学习算法
轨迹
风格
训练样本集
计算机程序产品
模型训练装置
塑形方法
电子设备
可读存储介质
处理器
数据
序列
动态
模块