摘要
本发明公开了深度强化学习模型的更新方法及装置,属于深度强化学习模型技术类领域,该深度强化学习模型的更新方法及装置,包括下述具体步骤:步骤一:通过多个并行执行单元异步采集环境交互数据;步骤二:基于动态优先级策略从经验池中采样数据,所述优先级由TD‑error和策略相似度联合确定;步骤三:采用分层更新策略,对网络的关键层与非关键层设置不同更新频率;步骤四:通过软更新技术逐步同步目标网络与在线网络参数。本发明通过异步更新机制减少等待时间,提高资源利用率,使效率提升,通过动态优先级采样使训练速度提升,加速收敛,分块更新策略降低计算开销,节省资源,通过对抗测试的模型错误率降低,提高安全性。
技术关键词
深度强化学习模型
更新方法
传感器获取环境
数据采集模块
校验模块
神经网络参数
动态
策略更新
频率
分层
在线
分块
错误率
时序
表达式
误差
系统为您推荐了相关专利信息
整体叶盘
激振器
电涡流位移传感器
电涡流传感器
结构系统
随机森林模型
内存
动态可视化
数据采集模块
可视化参数
信息处理系统
自然语言生成技术
内科
临床决策支持
肿瘤
视频融合方法
数字孪生技术
数字孪生模型
图像采集设备
异常事件
电池健康状态
关系
模型构建方法
恒功率
状态估计方法