摘要
本发明公开了一种自适应经验重放的深度强化学习训练优化方法及装置,其通过构建求和树,可以高效地计算和更新样本的优先级,减少了传统优先经验重放中直接计算每个样本优先级的计算负担,并基于预测模型,可以在不直接计算所有样本的优先级的情况下,预测样本的优先级,减少计算负担;通过融合时间差分误差与奖励优先级,以实现经验池中样本优先级的自适应矫正减小采样偏差,从而有效提高了采样与训练效率。
技术关键词
训练优化方法
深度强化学习
样本
建立预测模型
回归算法
误差
模型更新
可读存储介质
构建预测模型
模块
节点
计算机
优化装置
处理器
终端设备
负担
存储器
矫正
指数
分支
系统为您推荐了相关专利信息
教育培训管理系统
教育培训管理方法
教育培训方法
降噪麦克风
多模态
软件缺陷检测方法
软件缺陷修复
大语言模型
代码缺陷
修复系统