摘要
本说明书提供一种智能体的强化学习方法、训练设备及存储介质。智能体的强化学习方法包括:训练设备可以获取包括含第一动线任务对应的第一任务意图和第一历史动作序列的第一样本数据,然后,将第一样本数据输入第一智能体,并通过第一智能体对第一样本数据执行多次预测操作,获得第一智能体在多次预测操作中得到的多个预测动作。接着,训练设备可以确定多个预测动作各自对应的相对优势信息,并基于多个预测动作各自对应的相对优势信息对第一智能体的决策策略进行调整,以实现对第一智能体的强化学习。
技术关键词
计算机可读非易失性存储介质
样本
强化学习方法
训练设备
数据
意图
序列
人机交互界面
决策
策略
处理器
移动终端
规模
参数