摘要
本申请提出了一种车辆控制策略生成模型训练方法、设备、介质及程序产品。所述车辆控制策略生成模型包括Actor网络和Critic网络。该方法可以包括:获取样本时间步对应的样本行驶环境状态,分别将样本行驶环境状态输入肌肉记忆模型和车辆控制策略生成模型。Actor网络用于输出预测车辆控制动作概率分布;Critic网络用于输出预测价值估计;肌肉记忆模型基于车辆控制动作的先验知识训练得到,用于输出对应于样本行驶环境状态的目标车辆控制序列,目标车辆控制序列包括目标车辆控制动作与目标价值估计。基于目标车辆控制动作与预测车辆控制动作概率分布更新Actor网络的网络参数;基于目标价值估计和预测价值估计更新Critic网络的网络参数。
技术关键词
车辆控制策略
网络
记忆模型
生成模型训练方法
序列
样本
参数
行驶状态信息
预测误差
处理器
指令
计算机程序产品
生成方法
可读存储介质
电子设备
存储器
系统为您推荐了相关专利信息
音频生成方法
多模态
音频编码器
音频解码器
文本编码器
动力电池热失控
热失控风险
单体
神经网络模型
风险评估方法
筛选系统
药物
局部特征提取
门控循环单元
分子结构信息
半导体制冷片
网络设备
散热腔
散热组件
散热翅片