摘要
本发明提供一种博弈决策方法、装置、系统、设备及介质,涉及计算机技术领域,该方法包括:根据主智能体的当前资源状态信息、对手智能体的当前资源状态信息、主智能体和对手智能体之间的共有资源状态信息,获取第一目标博弈状态信息;根据主智能体和对手智能体之间的公共行动序列信息,获取第二目标博弈状态信息;将第一目标博弈状态信息和第二目标博弈状态信息输入至主智能体的角色对应的目标博弈决策模型,得到当前策略;根据当前策略,控制主智能体进行动作;多个博弈决策模型是在多个不同角色的样本智能体对应的动作网络的基础上进行强化学习的博弈对抗训练得到的。本发明实现高效精准地进行智能体的博弈决策。
技术关键词
资源状态信息
博弈决策方法
编码特征
样本
网络
策略
分支
基础
决策系统
处理器
序列
存储器
控制单元
算法
电子设备
介质
程序