摘要
本发明公开了一种复杂动态环境的基于强化学习的机器人自主导航方法,涉及强化学习、机器人导航等技术领域。本发明旨在解决多目标强化学习中,目标之间存在冲突,导致导航策略难以动态权衡、决策灵活性不足的问题。首先,创建仿真环境并构建Bayesian‑RVO模型用于对仿真环境中的行人行为模拟;其次,引入博弈论中的均衡响应原理设计奖励函数并构建博弈论框架;然后,设计基于Stackelberg博弈结构的双层决策网络;在此基础上,引入BNN结构的Critic网络;最后,进行模型训练。与现有方法相比,本发明在复杂环境下表现出更高的导航成功率、更低的碰撞率和更强的路径合理性,显著提升了机器人在复杂环境中的自主导航性能,可应用于农业、工业、服务业等领域。
技术关键词
机器人自主导航
模型训练方法
网络
障碍物
社交
仿真环境
速度
策略
生成机器人
概率密度函数
Actor模型
决策
仿真软件
动态
框架
高斯混合模型
模拟行人
参数
系统为您推荐了相关专利信息
空调调节方法
负载预测特征
动态调节控制
指数特征
支持向量机模型
光刻图形
光刻工艺
拓扑特征
深度学习方法
卷积网络模型
生成对抗网络
场景
虚拟现实设备
扫描装置
图像风格迁移技术