摘要
本发明涉及自动驾驶技术领域,提供了一种自动驾驶车辆行为决策方法、系统、设备及存储介质。该方法包括,对自车状态量和环境车辆状态量进行编码,得到嵌入状态;对环境车辆交互表征量,进行编码,得到特征向量;对嵌入状态、特征向量和上一时刻动作,进行编码,得到嵌入状态动作;基于嵌入状态和特征向量,采用策略网络,得到价值最大的动作,将该动作映射到车辆的油门踏板和控制踏板开度,生成自车下一时刻动作;基于策略网络输出的动作、自车状态量、环境车辆状态量、嵌入状态、特征向量和嵌入状态动作,采用Critic网络,引入价值函数,通过策略梯度方式,更新策略网络参数。
技术关键词
车辆
决策方法
编码模块
控制踏板
网络
油门踏板
策略
社会
参数更新模块
自动驾驶技术
决策系统
数据获取模块
处理器
速度
表达式
误差
系统为您推荐了相关专利信息
协调控制方法
深度强化学习模型
电网模型构建
AC算法
新型微电网
医学影像智能诊断
云端
任务分配模型
模型校准
轻量化卷积神经网络
强度分析方法
关键点检测算法
卷积神经网络模型
节点特征
关系
车辆监控方法
深度学习融合
全方位数据采集
深度卷积神经网络
传感器数据校准
数字孪生模型
特征信息融合
节点
异常设备
知识图谱推理