摘要
本申请涉及一种基于近端策略优化的路径规划方法、装置和计算机设备。方法包括:构建包括编码器和解码器的强化学习模型,采用编码器对目标点信息图进行编码,得到状态编码结果,采用解码器分别对扩展后的状态编码结果进行解码,得到多个巡回路径以及生成对应巡回路径的概率;根据当前状态下每一巡回路径的长度和概率进行加权求和,得到状态价值,根据巡回路径的长度得到当前动作的动作价值,根据动作价值和状态价值计算得到优势值;利用优势值、裁剪概率比率以及生成首次访问节点对应的概率,对强化学习模型中的策略参数进行近端策略优化,以输出待规划目标点信息图的最优路径规划方案。采用本方法能够提高无人机路径规划方案的准确性。
技术关键词
强化学习模型
策略
无人机飞行区域
路径规划方法
节点
解码器
编码器
无人机路径规划
计算机设备
比率
路径规划装置
参数
数据获取模块
处理器
可读存储介质
存储器
坐标
系统为您推荐了相关专利信息
负荷识别方法
卷积网络模型
原始脑电信号
节点特征
注意力