摘要
本发明公开了一种融合注意力机制与元学习的PPO路径规划方法,属于人工智能与路径规划交叉领域。该方法通过构建带注意力机制的PPO网络,使智能体动态聚焦关键环境特征;引入元学习框架,经多样化任务集预训练掌握通用规律,新环境中少量交互即可快速适应。方法分三阶段:初始化带注意力机制的PPO网络并设超参数;元训练阶段从任务集采样并迭代优化元参数;在线阶段基于元参数快速适配新环境并执行路径规划。本发明提升了决策精度与泛化能力,减少参数冗余,适用于复杂动态环境下的路径规划。
技术关键词
融合注意力机制
路径规划方法
阶段
线性变换矩阵
参数
障碍物
策略
动态避障
在线
网络结构
模块
因子
冗余
决策
布局