一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备

AITNT
正文
推荐专利
一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备
申请号:CN202411114237
申请日期:2024-08-14
公开号:CN119018181B
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备,在预训练阶段,使用CARLA模拟器中采集的数据,基于横摆角速度和现有奖励函数真值进行奖励函数的神经网络模型预训练,为奖励函数模型提供一定的先验知识,有助于加速模型的收敛过程。在奖励函数学习阶段,采用人类偏好以修正和优化奖励函数,通过奖励预测值和实际偏好的交叉熵损失并在损失函数中加入L2正则化,以确保学习行为更贴近人类决策,并防止奖励黑客现象,从而实现自动驾驶系统的决策与人类价值观的对齐。在智能体学习阶段,利用PPO算法和多通道BEV作为环境输入,结合油门开度与转角的向量输出进行实时训练,确保了自动驾驶系统的实时响应性和安全性。
技术关键词
自动驾驶系统 神经网络模型 横摆角速度 驾驶控制系统 人类 多通道 刹车踏板 变速器档位 代表 模拟器 语义 驾驶设备 序列 策略 编码 决策 传播算法 轨迹 交通灯
系统为您推荐了相关专利信息
1
一种企业评分方法、系统、计算机及存储介质
企业评分方法 指标 报告 企业数据处理 BP神经网络模型
2
智能穿搭推荐方法
穿搭推荐方法 智能穿戴设备 神经网络模型 指标 移动设备
3
针对量化神经网络的异构加速器计算调度建模与优化方法
异构加速器 流水线 遗传算法 深度神经网络模型 矩阵乘法运算
4
一种基于强化学习的无模型AUV深度控制方法
深度控制方法 建立神经网络模型 交互模型 控制系统 坐标系
5
基于工业大数据的型钢混凝土构件全周期管理方法
监测点 周期管理方法 混凝土构件 内填混凝土 BIM建模软件
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号