摘要
本发明属于深度学习的技术领域,具体提供了一种新的深度强化学习方法,名为DCCP(Dynamic Clipping Proximal Policy),用于改善当前的深度强化学习算法对于某些策略控制任务无法有效地控制策略收敛的问题。本方法主要通过使用自适应的动态裁剪率和优化的损失函数表达式,起到策略收敛的效果。本方法能够防止深度强化学习神经网络提前收敛于局部最小值,鼓励策略进行积极的探索,并且在数据分布稀疏的场景,能很好地收敛。
技术关键词
深度强化学习方法
深度强化学习算法
控制策略
超参数
动态
表达式
数据分布
样本
定义
网络
场景
系统为您推荐了相关专利信息
碳化物陶瓷
机器学习模型
Pearson相关系数
最佳特征子集
数据
访问控制系统
分布式访问控制方法
访问控制策略
计算机程序代码
节点
病症诊断方法
腰椎
图像检测模型
生成器网络
数据集制作方法
故障诊断模型
综合能源系统
故障特征
动态权重分配
时频分析法
智能供电系统
PD协议芯片
触点组
供电切换方法
电源管理模块