摘要
本申请涉及搜索路径规划技术领域,具体涉及一种基于深度强化学习的搜索路径规划方法、装置及评估方法。该搜索路径规划方法包括以下步骤:基于搜索环境参数,建立关于探测能力的环境矩阵,并设定起点;已训练好的神经网络基于智能体的当前位置、奖励函数和环境矩阵,输出各动作对应的Q值,所述奖励函数根据当前位置及其与目标点的距离、当前位置邻域的探测能力以及未访问区域数量设计;智能体根据Q值最大对应的动作执行每下一步动作。能够解决现有技术中存在强化学习算法在面对复杂任务时往往难以同时兼顾效率与稳定性,可能导致路径规划时间过长或结果偏离全局最优,影响实际应用效果的问题。
技术关键词
路径规划方法
深度强化学习
邻域
矩阵
覆盖率
路径规划技术
路径规划装置
神经网络参数
强化学习算法
误差
效能
索引
代表
方程
模块
因子
标记
系统为您推荐了相关专利信息
光储系统
无功补偿方法
数据采集层
气象监测数据
神经网络架构
电力系统负荷数据
数据缺失值
修复方法
牛顿插值法
序列
电力施工电缆
路径优化方法
连续特征
多角度
矩阵