摘要
本发明公开了一种基于随机网络蒸馏探索优化的无人车强化学习方法,该方法通过计算预测网络和目标网路的误差得到内在奖励,满足智能体在稀疏奖励中探索的需求。本发明基于一个固定的目标网络和一个利用随机梯度下降更新的预测网络,生成内在奖励,采用前向滤波和动态归一化算法对内在奖励进行实时归一化,从而使内在奖励和环境奖励属于同一数量级,提升内在奖励的稳定性,进而提升算法的稳定性和泛化能力,促进智能体在稀疏奖励环境中更好地探索。本发明利用目标网络和预测网络的输出误差作为内在奖励,增强了智能体的探索能力,从而可以更好地促进智能体探索环境。
技术关键词
无人车
网络
随机梯度下降
蒸馏
预测误差
深度强化学习方法
策略
归一化算法
强化学习算法
滤波
动态
参数
网路
定义
系统为您推荐了相关专利信息
轻量级卷积神经网络
模糊神经网络模型
模糊规则
深度强化学习
隶属度函数
家用储能系统
预测光伏发电功率
神经网络模型
历史负荷数据
充放电功率
多用户
基站
节点特征
上行链路导频
MISO系统
预启动执行环境
客户端
块尺寸
时间优化方法
虚拟扩展局域网