摘要
经验重放是异策略学习中一种非常重要的技术,它通过构造经验池存储智能体与环境交互得到的经验,实现对经验的多次利用,并打破了经验间的时间相关性。在以前的工作中,对经验池中所有的经验分配优先级,并在经验更新后要重新分配,这占用了大量的计算资源,需要消耗近乎原始经验重放2倍的时间。经验池中存在许多过去的经验,它们是由偏离当前策略的先前策略得到的,这对策略网络的更新是有害的。本发明介绍了一种新的经验重放优先级评定方式,设计了一套高奖励评定方法,使用状态特征的相似性和高奖励作为优先级,称为基于状态相似性和奖励的经验重放(SSRER)。
技术关键词
策略学习方法
评定方法
强化学习算法
度量
定义
因子
决策
代表
元素
网络
系统为您推荐了相关专利信息
人体建模方法
掩码策略
概率密度函数
符号
有效性
设计优化方法
导向型
超表面
神经网络训练
智能优化设计方法