摘要
本发明涉及自动驾驶技术领域,公开了多车辆协同决策方法、装置、设备、存储介质及程序产品,本发明利用每个车辆针对其他车辆的个体观察,量化复杂交通场景中的车辆交互,并结合初始策略网络得到每个车辆的目标动作。通过确定车辆执行相应目标动作后的个体奖励,构建个体优势函数、邻域优势函数以及全局优势函数,衡量车辆执行目标动作后在个体、邻域以及全局带来的优势。利用个体优势函数进行个体决策优化,并利用初始协同模型协同个体优势函数和邻域优势函数,进行局部邻域的决策优化,得到目标策略网络,使得目标策略网络可以在复杂交通场景下更好地进行决策。最后在全局层面对初始协同模型进行优化,从而在局部邻域中不断改进车辆决策。
技术关键词
车辆
决策方法
邻域
策略
网络
注意力
参数
自动驾驶技术
因子
可读存储介质
指令
计算机程序产品
存储器
处理器
计算机设备
模块
交通
矩阵