摘要
本发明公开了一种基于深度强化学习的水体清洁设备路径优化方法,包括如下步骤:S1、利用传感器采集水体环境数据,并进行预处理;S2、建立路径优化的状态空间和动作空间,并构建奖励机制;S3、采用Transformer网络对预处理数据进行特征提取;S4、利用改进的信赖域策略优化算法对策略网络和价值网络进行训练,基于KL散度约束优化策略网络的更新步长,并基于策略梯度方法优化路径规划策略;S5、利用训练后的策略网络和价值网络进行路径规划;S6、计算水体清洁设备的能耗消耗,并调整水体清洁设备的运行模式或作业路径。本发明结合Transformer和改进的信赖域策略优化算法优化水体清洁设备路径规划,具备环境适应性强、能耗低、清洁效率高和作业稳定性强的优点。
技术关键词
水体清洁设备
路径优化方法
深度强化学习
前馈神经网络
矩阵
多头注意力机制
策略更新
因子
障碍物
梯度方法
环境状态预测
规划
能耗
编码
水流
双曲正切函数
速度
系统为您推荐了相关专利信息
波束成形信号
骨传导麦克风
麦克风阵列信号
语音
音频特征
认知功能障碍
时序特征
干预方法
增量学习方法
数据
多头注意力机制
分割方法
语义标签
特征提取网络
前馈神经网络
深度循环神经网络
惯性导航系统
里程计
车辆定位方法
轮式
终端设备
深度强化学习
卸载方法
云服务器
能量消耗