一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备

正文

推荐专利

申请号：CN202411114237

申请日期：2024-08-14

公开号：CN119018181B

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备，在预训练阶段，使用CARLA模拟器中采集的数据，基于横摆角速度和现有奖励函数真值进行奖励函数的神经网络模型预训练，为奖励函数模型提供一定的先验知识，有助于加速模型的收敛过程。在奖励函数学习阶段，采用人类偏好以修正和优化奖励函数，通过奖励预测值和实际偏好的交叉熵损失并在损失函数中加入L2正则化，以确保学习行为更贴近人类决策，并防止奖励黑客现象，从而实现自动驾驶系统的决策与人类价值观的对齐。在智能体学习阶段，利用PPO算法和多通道BEV作为环境输入，结合油门开度与转角的向量输出进行实时训练，确保了自动驾驶系统的实时响应性和安全性。

技术关键词

自动驾驶系统神经网络模型横摆角速度驾驶控制系统人类多通道刹车踏板变速器档位代表模拟器语义驾驶设备序列策略编码决策传播算法轨迹交通灯

系统为您推荐了相关专利信息

一种企业评分方法、系统、计算机及存储介质

企业评分方法指标报告企业数据处理 BP神经网络模型

智能穿搭推荐方法

穿搭推荐方法智能穿戴设备神经网络模型指标移动设备

针对量化神经网络的异构加速器计算调度建模与优化方法

异构加速器流水线遗传算法深度神经网络模型矩阵乘法运算

一种基于强化学习的无模型AUV深度控制方法

深度控制方法建立神经网络模型交互模型控制系统坐标系

基于工业大数据的型钢混凝土构件全周期管理方法

监测点周期管理方法混凝土构件内填混凝土 BIM建模软件

一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备

站点导航

APP 下载