摘要
本发明提供基于强化学习的车辆路径规划方法及装置,涉及数据处理技术领域,方法包括:将t时间步的状态向量输入至第一模型中,获取第一样本动作对应的第一预期收益值;选取目标第一样本动作,更新得到t+1时间步的状态向量;将t+1时间步的状态向量输入至第二模型中,获取多个第二样本动作以及对应的第二预期收益值;基于第二预期收益值确定目标预期收益值,基于目标预期收益值、目标第一样本动作对应的第一预期收益值确定训练损失,基于训练损失更新第一模型的参数;在多个时间步后基于第一模型的参数对第二模型的参数进行软更新;基于训练完成后的第一模型的输出数据得到车辆路径规划结果。本发明可以提高车辆路径规划的鲁棒性。
技术关键词
车辆路径规划方法
样本
车辆路径规划装置
非暂态计算机可读存储介质
参数
处理器
数据处理技术
计算机程序产品
输出模块
存储器
鲁棒性
序列
电子设备
规模
机制
系统为您推荐了相关专利信息
机器人
高精度位置传感器
偏差
初始化系统
粒子群优化算法
产品包装生产线
参数
监测设备
设备运行数据
动态
色彩校准方法
屏幕显示模块
车载显示屏
数据
神经网络模型
信息显示界面
医疗系统
人机交互方法
显示背景图像
标识