摘要
本发明公开了一种面向自动驾驶场景的状态受限离线强化学习控制方法,包括以下步骤:(1)基于多模态融合感知技术构建车辆行驶数据集并进行数据预处理。(2)使用预处理后的数据训练前向动力学、逆动力学和奖励模型,同时构建演员‑评论家框架的策略网络和价值网络,训练过程中,计算状态之间的可达关系,用于指导策略学习和价值评估。(3)构建基于实时车辆状态感知的策略网络在线推理模块,采用策略梯度优化算法生成连续控制动作并获取动作执行后的状态转移矩阵,将转移数据存入经验回放缓冲区,定期通过优先经验回放策略对网络模型参数迭代优化,实现驾驶策略的进化。
技术关键词
强化学习控制方法
网络
逆动力学模型
车辆行驶数据
策略
生成动作
交通信号灯状态
识别交通标志
三维环境模型
生成点云数据
定义
多模态传感器
参数
强化学习模型
激光雷达
离线
随机梯度下降
加速度
系统为您推荐了相关专利信息
智能化管理方法
地理信息系统数据
支持向量机算法
实时监测数据
特征匹配算法
原始测井曲线
岩屑
长短期记忆网络
多模态
地震波阻抗反演
异常数据
车辆控制器
预警方法
控制策略
故障诊断模型