决策模型训练方法、装置、设备及介质

AITNT
正文
推荐专利
决策模型训练方法、装置、设备及介质
申请号:CN202510910452
申请日期:2025-07-02
公开号:CN120893506A
公开日期:2025-11-04
类型:发明专利
摘要
本申请公开了一种决策模型训练方法、装置、设备及介质。所述方法包括:获取策略互动中与非合作方的多局竞争中的历史对局数据;利用同策略多智能体优先经验回放算法选取目标训练样本集并根据目标训练样本集对多个预设模型进行迭代训练;利用联盟学习算法将多个训练的预设模型确定为联盟中的不同决策角色,得到多个不同策略风格的备选决策模型;根据多局竞争中的历史对局数据,利用多臂老虎机算法进行非合作方建模并从多个备选决策模型中动态选择对阵知识AI的目标决策模型。根据本申请实施例,能够提升模型应用到策略互动的性能,从而提升对局胜率。
技术关键词
决策模型训练方法 计算机程序指令 多臂老虎机 策略 学习算法 轨迹 风格 训练样本集 计算机程序产品 模型训练装置 塑形方法 电子设备 可读存储介质 处理器 数据 序列 动态 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号