基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法

正文

推荐专利

申请号：CN202411003909

申请日期：2024-07-25

公开号：CN118938988A

公开日期：2024-11-12

类型：发明专利

摘要

本发明公开了一种基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法，包括：初始化环境；获取无人机初始状态信息；将初始状态信息输入策略网络得到动作信息，计算下一状态和外部奖励，再记录判断是否终止的结束标识，并一起存入经验回放池，从回放池中随机抽取一批元组样本，计算抽取样本的状态熵来得到内在奖励，合并为总奖励；利用总奖励来更新价值网络参数，通过策略梯度优化策略网络；定期更新目标策略网络和目标价值网络的参数，评估当前策略的表现。本发明引入状态熵作为内在奖励，显著提升了无人机在密集障碍环境中探索的效率，结合外部奖励和内在奖励，该方法使得无人机能够快速学习最佳路径，同时追求全局最优解。

技术关键词

策略优化方法神经网络模型强化学习算法随机噪声生成无人机样本定义策略梯度方法噪声参数障碍物激光雷达超参数批量标识符因子

系统为您推荐了相关专利信息

基于术前和术中信息和人工神经网络的手术时间实时预测模型

手术人工神经网络模型数据采集模块前馈神经网络优化神经网络模型

一种基于双目视觉的隧道参数化建模方法及系统

参数化建模方法双目摄像机建立神经网络模型隧道结构生成训练图像

集成地质建模和数值模拟代理模型的自动历史拟合方法

自动历史拟合方法样本神经网络单元动态数据集平滑算法

多参数一体化非接触实时监控与控制细胞培养系统及方法

贝叶斯分类器细胞培养系统环境参数传感器分液模块多参数一体化

一种用于高压电选机的自动化温度控制方法及系统

自动化温度控制高压电选机智能温控仪表料仓调压模块

基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法

站点导航

APP 下载