摘要
本发明涉及一种基于安全课程强化学习的自动驾驶决策方法、系统及介质,其中方法包括以下步骤:感知周车和本车信息,作为环境信息;采用课程强化学习框架将自动驾驶任务划分为安全阶段和性能阶段,其中,安全阶段基于安全阶段的奖励函数进行安全智能体训练;在性能阶段部署安全智能体和性能智能体,固定安全阶段训练完成的安全智能体,基于性能阶段的奖励函数进行性能智能体训练,并使用切换函数实现安全智能体和性能智能体之间的切换;智能体与环境进行交互,根据损失函数更新网络参数,基于性能阶段网络输出的安全动作对车辆进行控制,实现自动驾驶安全决策。与现有技术相比,本发明具有训练高效、交互安全等优点。
技术关键词
自动驾驶决策方法
阶段
强化学习框架
子系统
车辆
策略
更新网络参数
车道
决策系统
因子
坐标
转向角
可读存储介质
加速度
计算机
系统为您推荐了相关专利信息
车辆故障识别方法
多特征信息
车辆故障识别装置
故障特征
车辆运行数据
航班排序方法
跑道
阶段
鲸鱼算法
连续时间马尔科夫链
高精度定位系统
水下机器人
定位子系统
集群
多源融合