摘要
一种无人艇逃脱深度强化学习训练方法,该方法针对无人艇逃脱场景,采用深度强化学习策略训练无人艇逃脱策略的情况,设定了状态空间与环境奖励,对无人艇所处环境部分状态进行筛选,设定合理的逃脱策略状态,既能反应无人艇逃脱时所要关注状态,又不将状态复杂化;从逃脱成功、逃脱失败、逃脱时间、航向角角度、航向角角速度等多方面对无人艇逃脱时的环境奖励进行综合设定,使无人艇逃脱策略训练能够收敛达到理想训练效果。
技术关键词
无人艇
深度强化学习
强化学习策略
SAC算法
网络
速度
场景
运动
坐标
定义
框架
系统为您推荐了相关专利信息
地震模拟方法
卷积神经网络结构
地震波场
采样点
快照
网络适配层
生成结构化数据
串口设备
数据传输方法
协议
BP神经网络
能耗预测方法
选煤厂
加权平均法
层次分析法