一种基于状态相似性和奖励经验重放的异策略学习方法

正文

推荐专利

申请号：CN202410850333

申请日期：2024-06-27

公开号：CN118839747A

公开日期：2024-10-25

类型：发明专利

摘要

经验重放是异策略学习中一种非常重要的技术，它通过构造经验池存储智能体与环境交互得到的经验，实现对经验的多次利用，并打破了经验间的时间相关性。在以前的工作中，对经验池中所有的经验分配优先级，并在经验更新后要重新分配，这占用了大量的计算资源，需要消耗近乎原始经验重放2倍的时间。经验池中存在许多过去的经验，它们是由偏离当前策略的先前策略得到的，这对策略网络的更新是有害的。本发明介绍了一种新的经验重放优先级评定方式，设计了一套高奖励评定方法，使用状态特征的相似性和高奖励作为优先级，称为基于状态相似性和奖励的经验重放(SSRER)。

技术关键词

策略学习方法评定方法强化学习算法度量定义因子决策代表元素网络

系统为您推荐了相关专利信息

高速公路自适应团雾预警与响应控制方法及系统

团雾预警强化学习模型能见度数据归一化方法

一种基于FPGA硬件加速的RAID实现方法

模块内核态物理磁盘存储设备消息

一种基于权重掩码策略的隐式表面人体建模方法

人体建模方法掩码策略概率密度函数符号有效性

一种基于任务导向型学习的超表面设计优化方法及系统

设计优化方法导向型超表面神经网络训练智能优化设计方法

一种基于免疫算法的资源调度方法、装置、设备及介质

免疫算法节点资源调度方法抗体损失率

一种基于状态相似性和奖励经验重放的异策略学习方法

站点导航

APP 下载