摘要
本发明公开了优化子目标生成方法、覆盖路径规划方法、设备及介质,所述方法包括:为分层强化学习的高层策略和底层策略提供多尺度观测空间;定义一组具有高层策略和底层策略的分层强化学习框架;在一组多尺度地图上训练并使用一组邻接网络,用于将指定环境状态坐标映射至一组嵌入空间,使得在所述嵌入空间中的欧氏距离能够用于有效表征两点状态之间在真实环境中的可达性或过渡成本;在分层强化学习框架中利用所述邻接网络对高层策略生成的子目标进行约束,优先选择局部可达的子目标。本发明能够有效缩小高层策略的子目标搜索空间,使其生成的子目标既具有全局战略性,又具备局部可行性。
技术关键词
覆盖路径规划方法
分层强化学习
生成方法
地标
多尺度地图
策略
网络
定义
超参数
处理器
全局地图
框架
轨迹
计算机设备
可读存储介质
上采样
存储器
坐标
系统为您推荐了相关专利信息
样本生成方法
软件特征
连续型
生成软件
模型场景
性能测试数据
热力图生成方法
路径损耗值
网络性能测试
信号源
生成音频数据
歌曲生成方法
生成系统
序列
大语言模型