基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法

AITNT
正文
推荐专利
基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法
申请号:CN202411003909
申请日期:2024-07-25
公开号:CN118938988A
公开日期:2024-11-12
类型:发明专利
摘要
本发明公开了一种基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法,包括:初始化环境;获取无人机初始状态信息;将初始状态信息输入策略网络得到动作信息,计算下一状态和外部奖励,再记录判断是否终止的结束标识,并一起存入经验回放池,从回放池中随机抽取一批元组样本,计算抽取样本的状态熵来得到内在奖励,合并为总奖励;利用总奖励来更新价值网络参数,通过策略梯度优化策略网络;定期更新目标策略网络和目标价值网络的参数,评估当前策略的表现。本发明引入状态熵作为内在奖励,显著提升了无人机在密集障碍环境中探索的效率,结合外部奖励和内在奖励,该方法使得无人机能够快速学习最佳路径,同时追求全局最优解。
技术关键词
策略优化方法 神经网络模型 强化学习算法 随机噪声 生成无人机 样本 定义策略 梯度方法 噪声参数 障碍物 激光雷达 超参数 批量 标识符 因子
系统为您推荐了相关专利信息
1
基于术前和术中信息和人工神经网络的手术时间实时预测模型
手术 人工神经网络模型 数据采集模块 前馈神经网络 优化神经网络模型
2
一种基于双目视觉的隧道参数化建模方法及系统
参数化建模方法 双目摄像机 建立神经网络模型 隧道结构 生成训练图像
3
集成地质建模和数值模拟代理模型的自动历史拟合方法
自动历史拟合方法 样本 神经网络单元 动态数据集 平滑算法
4
多参数一体化非接触实时监控与控制细胞培养系统及方法
贝叶斯分类器 细胞培养系统 环境参数传感器 分液模块 多参数一体化
5
一种用于高压电选机的自动化温度控制方法及系统
自动化温度控制 高压电选机 智能温控仪表 料仓 调压模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号