摘要
本发明公开了一种基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法,包括:初始化环境;获取无人机初始状态信息;将初始状态信息输入策略网络得到动作信息,计算下一状态和外部奖励,再记录判断是否终止的结束标识,并一起存入经验回放池,从回放池中随机抽取一批元组样本,计算抽取样本的状态熵来得到内在奖励,合并为总奖励;利用总奖励来更新价值网络参数,通过策略梯度优化策略网络;定期更新目标策略网络和目标价值网络的参数,评估当前策略的表现。本发明引入状态熵作为内在奖励,显著提升了无人机在密集障碍环境中探索的效率,结合外部奖励和内在奖励,该方法使得无人机能够快速学习最佳路径,同时追求全局最优解。
技术关键词
策略优化方法
神经网络模型
强化学习算法
随机噪声
生成无人机
样本
定义策略
梯度方法
噪声参数
障碍物
激光雷达
超参数
批量
标识符
因子
系统为您推荐了相关专利信息
手术
人工神经网络模型
数据采集模块
前馈神经网络
优化神经网络模型
参数化建模方法
双目摄像机
建立神经网络模型
隧道结构
生成训练图像
自动历史拟合方法
样本
神经网络单元
动态数据集
平滑算法
贝叶斯分类器
细胞培养系统
环境参数传感器
分液模块
多参数一体化
自动化温度控制
高压电选机
智能温控仪表
料仓
调压模块