摘要
本发明公开了基于改进A*启发式的多智能体深度强化学习路径规划方法,属于通信技术领域,该方法首先利用Q‑Learning算法的启发式搜索能力生成先验知识,以加速MADQN算法的训练过程;并结合先验Q值和估计Q值,优化系统整体的Q值函数、设计新的动作选择策略和多目标奖励函数,改进了无人机的动态决策过程,通过综合考虑探索奖励、障碍物规避奖励和多智能体协作奖励,显著提升了智能体在复杂环境中的学习效率和任务执行效果。本发明算法在多智能体路径规划任务中,与传统算法相比,在收敛速度、任务成功率和路径规划效率方面表现出色,进一步证明了其在复杂环境中的高效性和鲁棒性。
技术关键词
路径规划方法
深度强化学习
无人机
障碍物
表达式
多智能体协作
路径规划效率
算法
启发式搜索
深度神经网络
动态
策略
坐标
决策
鲁棒性
参数
阶段
定义
风险
系统为您推荐了相关专利信息
分布式优化调度方法
互联微电网
储能装置
充放电容量
发电燃料