摘要
本发明公开了一种基于双备选扩散策略的安全自动驾驶方法,针对传统离线强化学习因外推误差可能导致自动驾驶任务中出现不安全行为的问题,提出利用两个扩散模型作为相互替代的策略,并以包含多个动作价值网络的集成网络作为策略评估网络;通过在离线环境中对两个扩散模型和集成网络进行训练,在部署阶段利用集成网络对两个策略生成的动作进行不确定性评估,选择不确定性较低的策略作为最终驾驶策略,从而确保自动驾驶任务在部署阶段的安全性。
技术关键词
自动驾驶方法
网络
策略
方向盘
智能车体
参数
离线
刹车
生成动作
噪声预测模型
初始化方法
样本
多层感知机
阶段
数值
障碍物
误差
数据
系统为您推荐了相关专利信息
数据优化方法
芯片
图谱
计算机执行指令
数据优化系统
日志
预警方法
模式识别模型
子系统
地铁信号系统
门禁管理系统
门禁管理效率
控制模块
控制策略
综合评价模型
机器识别系统
分类特征
决策树模型
交互式反馈系统
信息反馈系统