一种基于优先场景回放的约束多智体强化学习方法

正文

推荐专利

申请号：CN202410945304

申请日期：2024-07-15

公开号：CN119005286A

公开日期：2024-11-22

类型：发明专利

摘要

本发明公开了一种基于优先场景回放的约束多智体强化学习方法，包括步骤：基于预设的强化学习算法，利用预设的第一场景和预设的第一回放经验池对智体进行训练，训练得到第一经验，并利用所述第一经验更新所述第一回放经验池中的经验，得到第二回放经验池；步骤A：记录所述智体在每个所述第一场景中的性能表现，并利用所述性能表现得到每个所述第一场景的优先级参数；其中，所述优先级参数越低表示所述性能表现越差；基于预设的场景选取算法，根据所述优先级参数的从低到高排序，选取所述第一场景的至少一部分作为第二场景；以及基于所述强化学习算法，利用所述第二场景和所述第二回放经验池对所述智体进行强化学习训练，输出训练后的智体。

技术关键词

强化学习方法强化学习算法场景选取算法参数智能游戏计算机设备可读存储介质学习装置智能车辆处理器时间差存储器广义误差

系统为您推荐了相关专利信息

一种针对web接口数据缓存的方法与系统

ARIMA模型网络参数延迟矩阵动态

一种产区生态安全和产业发展耦合协调度预测方法及应用

度预测方法指标灰色预测模型时间段随机森林模型

数字站房设备状态智能监测系统及方法

状态智能监测系统 LSTM神经网络动态贝叶斯网络设备健康状态站房

干扰成分处理方法、装置、设备、存储介质及产品

生成对抗网络模型拓扑特征时域特征频域特征干扰信号识别方法

基于自适应图增强的图对比学习模型的训练方法及设备

注意力机制前馈神经网络数据节点模型训练模块

一种基于优先场景回放的约束多智体强化学习方法

站点导航

APP 下载