一种基于离线在线融合强化学习的自动驾驶决策方法

AITNT
正文
推荐专利
一种基于离线在线融合强化学习的自动驾驶决策方法
申请号:CN202411803331
申请日期:2024-12-10
公开号:CN119670842B
公开日期:2025-09-05
类型:发明专利
摘要
本发明涉及一种基于离线在线融合强化学习的自动驾驶决策方法,涉及自动驾驶和人工智能领域,包括离线训练和在线策略扩展两个阶段。初始化离线和在线强化学习的策略、离线值网络。在离线训练阶段,将静态数据集中的数据放入离线经验池,从离线经验池中随机采样得到静态数据并更新离线策略和离线值网络。在线策略扩展阶段,先冻结离线训练阶段得到的离线策略并将其与在线策略组合成扩展策略集,以一定概率从扩展策略集中选择策略与环境交互并将交互数据放入在线经验池,从在线经验池中随机采样得到静态数据并更新在线策略和在线值网络。本发明在保留离线强化学习安全性的同时,让决策智能体能够从进一步的在线学习中受益。
技术关键词
自动驾驶决策方法 离线 在线 策略 代表 阶段 网络 数据 因子 格式
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号