摘要
本发明提供一种基于强化学习模型的车辆控制方法、装置、设备和介质,用以通过训练得到具有较高可靠性的目标智能体,促使辅助驾驶模式下的车辆能在具有复杂特性的匝道场景中安全行驶。该方法包括:确定第一待控制车辆的训练数据;其中,训练数据包括对应于预设的行驶场景的第一状态;通过待优化强化学习模型,确定训练数据所对应的时间差分值;其中,待优化强化学习模型包括待优化智能体,时间差分值指示,与第一状态对应的相邻两个时间步的价值之间的差距;基于时间差分值,更新待优化智能体中的待优化参数,得到目标智能体;基于目标智能体,确定第二待控制车辆的目标行驶参数,并基于目标行驶参数控制第二待控制车辆行驶。
技术关键词
强化学习模型
时间差
车辆控制方法
参数
网络
车辆控制装置
策略
处理器
计算机程序产品
场景
数据模块
可读存储介质
存储器
电子设备
因子
系统为您推荐了相关专利信息
电力系统自动化通信技术
网络通信数据
网口配置
虚拟化技术
队列
基站
频域稀疏约束
脉冲神经网络构建
数字孪生驱动
策略
系统特征
输出特征
故障诊断方法
决策树模型
卷积神经网络提取
图像采集模块
采集设备
定位模块
姿态控制算法
图像采集方法
BP神经网络模型
参数
水质
遗传算法
养殖工船技术