摘要
本发明提供一种基于深度强化学习的无人车规划方法及装置,方法包括:获取待测网络性能信息和待测观测状态信息;将待测网络性能信息和待测观测状态信息输入至无人车调度预测模型中,得到无人车调度预测模型输出的无人搬运车的预测动作;其中,无人车调度预测模型是基于经验回放池中的训练样本数量达到第一预设数量后、从经验回放池中选择第二预设数量的训练样本进行优化训练得到的,经验回放池中的训练样本是根据对应时间步数的历史观测状态、历史网络性能信息、基于历史观测状态选择的历史动作以及执行所选历史动作后基于历史网络性能信息得到的下一历史观测状态和历史奖励得到的。本发明能确保及时捕捉状态变化,提高了动作预测的准确性。
技术关键词
网络性能信息
无人车
深度强化学习
无人搬运车
规划
预测模型训练
梯度下降算法
速度
贪心策略
参数
计算机程序产品
处理器
传播算法
误差
存储器
因子
电子设备
模块
标记
系统为您推荐了相关专利信息
无碰撞运动
表达式
模糊隶属度方法
插值模型
算法规划
移动机器人
路径规划方法
A星算法
构建环境地图
多任务
分布式任务调度
钢筋
接口模块
动态资源调度
云端
多智能体深度强化学习
资源分配优化方法
多智能体强化学习
网络系统架构
编码策略
建筑作业方法
建筑三维模型
多机器人协同
动态障碍物
强化学习模型