摘要
本申请实施例提供了一种游戏机器人的训练方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取目标游戏的第一游戏状态和第一游戏状态下人类玩家的第一决策数据;基于第一游戏状态和第一决策数据,对预设的奖励模型进行训练,得到训练好的奖励模型;获取目标游戏的第二游戏状态和第二游戏状态下游戏机器人的第二决策数据;通过训练好的奖励模型,基于第二游戏状态和第二决策数据进行奖励预测,得到游戏机器人的奖励;基于第二游戏状态、第二决策数据和奖励,对游戏机器人进行强化学习训练,得到训练好的游戏机器人。本申请实施例能够提高训练效率,提供具有更高决策能力的游戏机器人。
技术关键词
游戏机器人
决策
融合特征
人类玩家
数据
计算机设备
模型训练模块
可读存储介质
人工智能技术
训练装置
处理器
存储器
参数