决策模型训练方法、装置、设备及介质

正文

推荐专利

决策模型训练方法、装置、设备及介质

申请号：CN202510910452

申请日期：2025-07-02

公开号：CN120893506A

公开日期：2025-11-04

类型：发明专利

摘要

本申请公开了一种决策模型训练方法、装置、设备及介质。所述方法包括：获取策略互动中与非合作方的多局竞争中的历史对局数据；利用同策略多智能体优先经验回放算法选取目标训练样本集并根据目标训练样本集对多个预设模型进行迭代训练；利用联盟学习算法将多个训练的预设模型确定为联盟中的不同决策角色，得到多个不同策略风格的备选决策模型；根据多局竞争中的历史对局数据，利用多臂老虎机算法进行非合作方建模并从多个备选决策模型中动态选择对阵知识AI的目标决策模型。根据本申请实施例，能够提升模型应用到策略互动的性能，从而提升对局胜率。

技术关键词

决策模型训练方法计算机程序指令多臂老虎机策略学习算法轨迹风格训练样本集计算机程序产品模型训练装置塑形方法电子设备可读存储介质处理器数据序列动态模块

决策模型训练方法、装置、设备及介质

站点导航

APP 下载