一种自适应经验重放的深度强化学习训练优化方法及装置

正文

推荐专利

申请号：CN202411451164

申请日期：2024-10-17

公开号：CN119398241A

公开日期：2025-02-07

类型：发明专利

摘要

本发明公开了一种自适应经验重放的深度强化学习训练优化方法及装置，其通过构建求和树，可以高效地计算和更新样本的优先级，减少了传统优先经验重放中直接计算每个样本优先级的计算负担，并基于预测模型，可以在不直接计算所有样本的优先级的情况下，预测样本的优先级，减少计算负担；通过融合时间差分误差与奖励优先级，以实现经验池中样本优先级的自适应矫正减小采样偏差，从而有效提高了采样与训练效率。

技术关键词

训练优化方法深度强化学习样本建立预测模型回归算法误差模型更新可读存储介质构建预测模型模块节点计算机优化装置处理器终端设备负担存储器矫正指数分支

系统为您推荐了相关专利信息

基于微表情识别的风险等级预测方法、装置、设备及介质

微表情识别风险表情特征答案答题

一种基于企业数据差异化分析的建议生成方法

建议生成方法样本阶段数据订单

教育培训管理系统及教育培训方法

教育培训管理系统教育培训管理方法教育培训方法降噪麦克风多模态

一种针对医药管理数据的后处理方法和装置

医药知识图谱异常数据后处理方法逻辑动态

一种软件缺陷检测方法、修复方法及修复系统

软件缺陷检测方法软件缺陷修复大语言模型代码缺陷修复系统

一种自适应经验重放的深度强化学习训练优化方法及装置

站点导航

APP 下载