摘要
本公开提供了一种智能体训练方法及装置、电子设备、存储介质,属于智能体训练技术领域,该方法包括:确定主智能体的第一策略模型和陪练智能体的第二策略模型,第一策略模型为主智能体历史版本池中的模型,第二策略模型为陪练智能体历史版本池中的模型;基于第一策略模型和第二策略模型的交互数据对第一策略模型进行更新得到第三策略模型,基于第一策略模型和第二策略模型的交互数据对第二策略模型进行更新得到第四策略模型;将第三策略模型加入主智能体历史版本池中,将第四策略模型加入到陪练智能体历史版本池中。本公开提供的智能体训练方法及装置、电子设备、存储介质能够满足在非对称任务中策略多变、环境复杂的实际需求。
技术关键词
智能体训练方法
策略
深度强化学习算法
电子设备
数据更新
可读存储介质
处理器
模型更新
训练装置
存储器
计算机
参数
模块
数值
系统为您推荐了相关专利信息
飞行汽车
避障路径
环境状态信息
编队控制方法
动态避障
心肌梗死患者
xgboost模型
预测装置
多层堆栈
机器学习框架
音频
窗口系数
计算机可执行指令
傅里叶变换处理
矩阵
波长分配方法
比例模型
时间段
可再生能源
源节点