摘要
本发明公开了一种自动驾驶决策模型训练方法、装置、设备、介质及产品,其方法包括:初始化决策模型以及用于表示强交互场景的环境状态s;基于环境状态s,使用决策模型计算所有可能的决策期望值,并筛选出一个决策期望值,根据决策期望值确定对应的动作a;在环境状态s中,执行动作a,得到反馈的新的环境状态s'以及奖励函数r;基于环境状态s’以及奖励函数r生成经验元组(s,a,s’,r),并将环境状态s’重新输入决策模型中,重复上述步骤生成新的经验元组,循环多次最终生成多组经验元组组成经验回放合集D;以及,将经验回放合集D作为训练样本训练决策模型。本发明可以训练得到车辆在强交互场景下的决策模型以用于车辆决策控制。
技术关键词
驾驶决策模型
决策方法
计算机可执行指令
标签
场景分类
数据
训练装置
车辆
贪心算法
计算机程序产品
处理器通信
网络结构
识别模块
存储模块
可读存储介质
系统为您推荐了相关专利信息
决策方法
斯塔克尔伯格博弈
动态知识图谱
节点
时间序列特征
数据收集方法
BERT模型
结构化数据格式
文本
电力
异常事件
注意力神经网络
告警系统
节点
应急响应系统