摘要
本发明公开了一种基于非对称特权世界模型的无人系统导航方法,利用经验池中的样本数据构建非对称世界模型WM世界。在实时路径规划模块中应用非对称特权世界模型与智能决策算法相结合的技术手段,构建了非对称世界模型WM世界、参与者模型Actor和评论家模型Critic。在WM世界模型中分别构建了WM参与者模型和WM评论家模型。在无人系统导航场景中,WM世界模型通过无人系统与环境信息的交互在存储缓冲区进行路径训练,采用同步路径训练过程来确保WM参与者模型可以访问无人系统的观察结果。WM评论家模型利用特权信息来实现安全强化学习的高性能和安全性。
技术关键词
Actor模型
系统导航方法
全局状态信息
解码器
自动编码方法
拉格朗日方法
轨迹
状态编码器
规划
导航系统
动态
无人机系统
样本
数据
决策算法
载体
策略