摘要
本发明涉及一种基于离线在线融合强化学习的自动驾驶决策方法,涉及自动驾驶和人工智能领域,包括离线训练和在线策略扩展两个阶段。初始化离线和在线强化学习的策略、离线值网络。在离线训练阶段,将静态数据集中的数据放入离线经验池,从离线经验池中随机采样得到静态数据并更新离线策略和离线值网络。在线策略扩展阶段,先冻结离线训练阶段得到的离线策略并将其与在线策略组合成扩展策略集,以一定概率从扩展策略集中选择策略与环境交互并将交互数据放入在线经验池,从在线经验池中随机采样得到静态数据并更新在线策略和在线值网络。本发明在保留离线强化学习安全性的同时,让决策智能体能够从进一步的在线学习中受益。
技术关键词
自动驾驶决策方法
离线
在线
策略
代表
阶段
网络
数据
因子
格式