摘要
本发明公开了一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备,在预训练阶段,使用CARLA模拟器中采集的数据,基于横摆角速度和现有奖励函数真值进行奖励函数的神经网络模型预训练,为奖励函数模型提供一定的先验知识,有助于加速模型的收敛过程。在奖励函数学习阶段,采用人类偏好以修正和优化奖励函数,通过奖励预测值和实际偏好的交叉熵损失并在损失函数中加入L2正则化,以确保学习行为更贴近人类决策,并防止奖励黑客现象,从而实现自动驾驶系统的决策与人类价值观的对齐。在智能体学习阶段,利用PPO算法和多通道BEV作为环境输入,结合油门开度与转角的向量输出进行实时训练,确保了自动驾驶系统的实时响应性和安全性。
技术关键词
自动驾驶系统
神经网络模型
横摆角速度
驾驶控制系统
人类
多通道
刹车踏板
变速器档位
代表
模拟器
语义
驾驶设备
序列
策略
编码
决策
传播算法
轨迹
交通灯
系统为您推荐了相关专利信息
企业评分方法
指标
报告
企业数据处理
BP神经网络模型
穿搭推荐方法
智能穿戴设备
神经网络模型
指标
移动设备
异构加速器
流水线
遗传算法
深度神经网络模型
矩阵乘法运算
深度控制方法
建立神经网络模型
交互模型
控制系统
坐标系
监测点
周期管理方法
混凝土构件
内填混凝土
BIM建模软件