一种基于随机网络蒸馏探索优化的无人车强化学习方法

正文

推荐专利

申请号：CN202411593764

申请日期：2024-11-08

公开号：CN119808520A

公开日期：2025-04-11

类型：发明专利

摘要

本发明公开了一种基于随机网络蒸馏探索优化的无人车强化学习方法，该方法通过计算预测网络和目标网路的误差得到内在奖励，满足智能体在稀疏奖励中探索的需求。本发明基于一个固定的目标网络和一个利用随机梯度下降更新的预测网络，生成内在奖励，采用前向滤波和动态归一化算法对内在奖励进行实时归一化，从而使内在奖励和环境奖励属于同一数量级，提升内在奖励的稳定性，进而提升算法的稳定性和泛化能力，促进智能体在稀疏奖励环境中更好地探索。本发明利用目标网络和预测网络的输出误差作为内在奖励，增强了智能体的探索能力，从而可以更好地促进智能体探索环境。

技术关键词

无人车网络随机梯度下降蒸馏预测误差深度强化学习方法策略归一化算法强化学习算法滤波动态参数网路定义

系统为您推荐了相关专利信息

一种架空地线腐蚀评估方法、系统、设备及介质

色散补偿信号计算机可执行指令地线重构因子

一种基于轻量级卷积神经网络动态优化的MPPT控制方法

轻量级卷积神经网络模糊神经网络模型模糊规则深度强化学习隶属度函数

一种家用储能系统的智能控制方法及装置

家用储能系统预测光伏发电功率神经网络模型历史负荷数据充放电功率

一种基于图神经网络的RIS辅助多用户通信波束成型优化方法与系统

多用户基站节点特征上行链路导频 MISO系统

预启动执行环境引导时间优化方法及程序产品

预启动执行环境客户端块尺寸时间优化方法虚拟扩展局域网

一种基于随机网络蒸馏探索优化的无人车强化学习方法

站点导航

APP 下载