摘要
本发明公开了一种基于优先场景回放的约束多智体强化学习方法,包括步骤:基于预设的强化学习算法,利用预设的第一场景和预设的第一回放经验池对智体进行训练,训练得到第一经验,并利用所述第一经验更新所述第一回放经验池中的经验,得到第二回放经验池;步骤A:记录所述智体在每个所述第一场景中的性能表现,并利用所述性能表现得到每个所述第一场景的优先级参数;其中,所述优先级参数越低表示所述性能表现越差;基于预设的场景选取算法,根据所述优先级参数的从低到高排序,选取所述第一场景的至少一部分作为第二场景;以及基于所述强化学习算法,利用所述第二场景和所述第二回放经验池对所述智体进行强化学习训练,输出训练后的智体。
技术关键词
强化学习方法
强化学习算法
场景
选取算法
参数
智能游戏
计算机设备
可读存储介质
学习装置
智能车辆
处理器
时间差
存储器
广义
误差
系统为您推荐了相关专利信息
度预测方法
指标
灰色预测模型
时间段
随机森林模型
状态智能监测系统
LSTM神经网络
动态贝叶斯网络
设备健康状态
站房
生成对抗网络模型
拓扑特征
时域特征
频域特征
干扰信号识别方法
注意力机制
前馈神经网络
数据
节点
模型训练模块