摘要
本发明公开了一种应用于强化学习决策模型的重放比率调整方法,该方法包括:对当前重放缓冲区内的样本数据进行随机采样,确定当前训练样本,其中,当前重放缓冲区对应于当前重放比率,当前重放比率为新样本与旧样本的数量比值;基于当前训练样本对强化学习决策模型进行训练,以确定当前性能反馈参数;若当前训练轮次满足预设重放比率调整条件,则基于当前性能反馈参数、当前重放比率以及至少一种预先设置的重放比率调整策略,确定与重放缓冲区对应的目标重放比率,以基于目标重放比率对当前重放缓冲区进行样本更新,通过动态调整重放比率以平衡新鲜经验的写入重放缓冲区的速度,提高了强化学习决策模型算法的学习效率和最终策略性能。
技术关键词
比率
决策
样本
参数
策略
模型算法
数据
动态
关系
速度
系统为您推荐了相关专利信息
信令
无线接口协议
无线资源控制层
数据传输方法
人工智能决策
视频帧
视频流
录像设备
录像方法
深度神经网络模型
三维地质模型
复杂度
动态网格
数据
网格划分方法