摘要
本发明涉及人工智能技术领域的模拟海马‑前额叶记忆规划回放机理的行为决策方法,通过构建海马规划回放网络与前额叶策略评估网络的闭环交互,融合元强化学习与基于模型的策略优化技术,仿生神经机制实现动态规划与策略优化的统一,实现类脑决策过程中经验回放与前瞻性模拟的动态耦合,使机器人能够在“规划”中学习。其以无模型元强化学习的方法获取环境基础数据,再利用基于模型元强化学习的策略优化方法,以当前基础数据作为规划的起点,使用模型进行一定步数的规划,并用规划结果来训练模型,克服了现有机器人算法受限于实际环境复杂程度、样本收集困难等问题,有效提升了学习能力,从而满足了移动机器人在多样化复杂场景中的应用需求。
技术关键词
规划
决策方法
前额
策略优化技术
强化学习框架
记忆单元
策略优化方法
网络
多层注意力机制
机器人算法
人工智能技术
移动机器人
闭环
动态
实时数据