一种面向自动驾驶场景的状态受限离线强化学习控制方法

正文

推荐专利

申请号：CN202511022067

申请日期：2025-07-24

公开号：CN120930714A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种面向自动驾驶场景的状态受限离线强化学习控制方法，包括以下步骤：(1)基于多模态融合感知技术构建车辆行驶数据集并进行数据预处理。(2)使用预处理后的数据训练前向动力学、逆动力学和奖励模型，同时构建演员‑评论家框架的策略网络和价值网络，训练过程中，计算状态之间的可达关系，用于指导策略学习和价值评估。(3)构建基于实时车辆状态感知的策略网络在线推理模块，采用策略梯度优化算法生成连续控制动作并获取动作执行后的状态转移矩阵，将转移数据存入经验回放缓冲区，定期通过优先经验回放策略对网络模型参数迭代优化，实现驾驶策略的进化。

技术关键词

强化学习控制方法网络逆动力学模型车辆行驶数据策略生成动作交通信号灯状态识别交通标志三维环境模型生成点云数据定义多模态传感器参数强化学习模型激光雷达离线随机梯度下降加速度

系统为您推荐了相关专利信息

一种基于多源数据融合的通信管线资源智能化管理方法及系统

智能化管理方法地理信息系统数据支持向量机算法实时监测数据特征匹配算法

一种用于生成营销素材的系统及营销素材生成方法

生成指令文本图像主题场景

基于多模态数字岩屑虚拟井的老井复查方法及系统

原始测井曲线岩屑长短期记忆网络多模态地震波阻抗反演

轻量化目标检测方法、目标检测模型的轻量化方法及装置

卷积模块滤波器特征提取模块轻量化方法图像

一种基于车辆控制器数据的故障诊断与预警方法

异常数据车辆控制器预警方法控制策略故障诊断模型

一种面向自动驾驶场景的状态受限离线强化学习控制方法

站点导航

APP 下载