一种基于状态相似性和奖励经验重放的异策略学习方法

AITNT
正文
推荐专利
一种基于状态相似性和奖励经验重放的异策略学习方法
申请号:CN202410850333
申请日期:2024-06-27
公开号:CN118839747A
公开日期:2024-10-25
类型:发明专利
摘要
经验重放是异策略学习中一种非常重要的技术,它通过构造经验池存储智能体与环境交互得到的经验,实现对经验的多次利用,并打破了经验间的时间相关性。在以前的工作中,对经验池中所有的经验分配优先级,并在经验更新后要重新分配,这占用了大量的计算资源,需要消耗近乎原始经验重放2倍的时间。经验池中存在许多过去的经验,它们是由偏离当前策略的先前策略得到的,这对策略网络的更新是有害的。本发明介绍了一种新的经验重放优先级评定方式,设计了一套高奖励评定方法,使用状态特征的相似性和高奖励作为优先级,称为基于状态相似性和奖励的经验重放(SSRER)。
技术关键词
策略学习方法 评定方法 强化学习算法 度量 定义 因子 决策 代表 元素 网络
系统为您推荐了相关专利信息
1
高速公路自适应团雾预警与响应控制方法及系统
团雾预警 强化学习模型 能见度 数据 归一化方法
2
一种基于FPGA硬件加速的RAID实现方法
模块 内核态 物理磁盘 存储设备 消息
3
一种基于权重掩码策略的隐式表面人体建模方法
人体建模方法 掩码策略 概率密度函数 符号 有效性
4
一种基于任务导向型学习的超表面设计优化方法及系统
设计优化方法 导向型 超表面 神经网络训练 智能优化设计方法
5
一种基于免疫算法的资源调度方法、装置、设备及介质
免疫算法 节点 资源调度方法 抗体 损失率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号