摘要
本申请涉及自动驾驶行为决策技术领域,公开了一种基于预测轨迹的安全强化学习智能车汇入决策方法及系统。构建强化学习汇入决策模型,利用预测模型获取每个动作对应的预测轨迹,基于代价函数计算预测轨迹中每一步状态的代价,利用折现总代价计算方法计算预测轨迹的折现总代价。然后根据每个动作的折现总代价确定安全动作集。若智能体的原始决策动作在安全动作集中,或者安全动作集为空,则输出原始决策动作;若不在安全动作集中,则输出安全动作集中价值最大的动作。本申请中,将预测轨迹融入安全强化学习,通过将不安全动作替换为安全动作,有效地减少了训练过程中的碰撞次数,从而缩短了训练周期,降低了训练成本,提高了汇入决策的安全性。
技术关键词
决策方法
智能车
轨迹
计算方法
仿真环境
模型训练模块
可读存储介质
交通
决策系统
策略
处理器
输出模块
定义
存储器
计算机
电子设备
网络
因子
系统为您推荐了相关专利信息
信号特征
钢绞线预应力
支持向量机回归模型
识别方法
张拉力
窃电检测方法
融合计算方法
电流值
数据处理模块
梯度下降算法
电网潮流计算方法
负荷
智能优化算法
节点
粒子群算法