摘要
本发明公开了一种面向未知动态环境的水下机器人路径规划方法、电子设备、介质,包括:智能体根据当前Q网络的输出选取动作,与环境交互,得到状态;考虑路径规划中的安全约束,对状态进行处理,得到第一类指导信息、第二类指导信息,从而更新状态;根据更新后的状态,计算奖励;将动作、状态、奖励存入经验回放池中;重复上述过程,直至经验回放池中的数据量达到阈值;从经验回放池中抽取一批经验数据,分别输入至Q网络、目标Q网络中,计算Q值、目标Q值;采用梯度下降法最小化损失函数,以更新Q网络参数;将Q网络的参数复制到目标Q网络;直至损失函数收敛,得到训练好的目标Q网络;配置测试环境,利用训练好的目标Q网络输出规划路径。
技术关键词
水下机器人
障碍物
距离信息
网络
动态
梯度下降法
规划
电子设备
处理器
计算机程序产品
参数
存储器
基础
标记
可读存储介质
速度
数据
系统为您推荐了相关专利信息
无人水面
粒子群优化算法
能量聚集
多源传感器融合
深度神经网络算法
样本预处理方法
生成结构化数据
多业务
电力系统
预处理系统
配电网网络重构
电力系统脆弱性
信息融合系统
仿真方法
网络仿真平台
多传感器融合技术
畜牧养殖方法
物联网实时监测
智能装备
环境调节设备
重建系统
三维成像
生成对抗网络
三维模型
Dijkstra算法