摘要
本发明公开了一种基于选择性模仿增强深度强化学习的无人机导航避障方法,将模仿学习与深度强化学习相结合以用于固定翼无人机导航和避障,智能体通过学习端到端策略,直接将非理想传感器数据映射为控制指令。针对稀疏奖励场景,通过访问智能体不可获取的特权状态信息,构建人工势场生成非专家指导动作,通过与环境的实时交互,融合模仿学习与深度强化学习,根据观测状态与稀疏奖励信号持续优化导航策略。采用Q值驱动的动态决策机制,通过对比指导者建议动作与学习器生成动作的预期收益,决定固定翼无人机动作,实现探索‑利用平衡,有效规避无效探索与局部最优决策。
技术关键词
导航避障方法
深度强化学习
评价器
执行器
生成动作
固定翼无人机
网络
学习算法
强化学习策略
优化人工势场
障碍物
决策
机制
牵引无人机
损失函数设计
过滤器模块