摘要
本发明公开了一种基于深度强化学习‑快速探索随机树的路径规划方法,包括:S1、获取起点和终点;S2、计算候选路径点,并根据Q值在动作状态中选择动作;S3、计算执行动作后的奖励值和新的动作状态;S4、将动作状态、动作、奖励值和新的动作状态储存至经验池,响应于经验池中存储数大于批次大小,则随机选择批次大小的经验值,并通过策略网络更新Q值和时序差分误差;S5、通过均方误差损失更新策略网络参数,根据时序差分误差计算目标网络更新步长;S6、判断已搜索的路径是否到达终点或满足设定的最大路径点搜索个数,若是,则输出当前路径;若否,则返回S2。本发明在提高算法搜索效率的同时,不增加算法搜索时间。
技术关键词
路径规划方法
深度强化学习
表达式
终点
误差
时序
矩阵
策略
坐标
深度Q网络
元素
样本
算法
参数
障碍物
因子
机制
节点
动态
系统为您推荐了相关专利信息
收割机控制方法
数字孪生模型
安装监测设备
非线性最小二乘法
坐标系
图像识别系统
拉毛
灰度共生矩阵
震动传感器
机器学习模型
创新创业教育
专业名词
推荐系统
LSTM神经网络
语义