摘要
本发明涉及一种离线到在线的强化学习稳定微调系统和方法,通过设置智能驾驶模块、离线预训练模块和策略微调与优化模块,以离线预训练模块从多个数据源获取驾驶数据,并利用驾驶数据,通过离线强化学习算法对智能驾驶模块进行策略预训练;以策略微调与优化模块根据车辆与环境的实时交互数据,采用在线强化学习优化方式对基础驾驶策略进行策略优化,从而能在智能驾驶模块操控车辆时缓解分布偏移和灾难性遗忘,实现高效、稳定的策略优化。
技术关键词
微调系统
离线
强化学习算法
在线
代表
模块
车辆
随机噪声
基础
数据
微调方法
梯度下降法
策略更新
控制权
机制
参数
障碍物
网络
系统为您推荐了相关专利信息
智能分析模块
矿山
深度卷积神经网络
高斯混合模型
强化学习算法
智能设计方法
铸件工艺
姿态归一化
设计特征
三维模型形状
深度神经网络模型
强化学习模型
参数
电子设备
预测信道状态