摘要
本发明提出了一种面向海域搜索的强化学习方法,包括以下步骤:Step1、面向海域搜索的状态空间设计,设置状态空间为向量形式;Step2、面向海域搜索的动作空间设计,假定在单轮搜索过程中搜索主体航速大小保持不变,每步中搜索主体只决策当前步的航向变化量;Step3、面向海域搜索的奖励函数设计,建立稀疏奖励函数;Step4、面向海域搜索的强化学习算法设计,海域搜索智能体的输入为大小为1×25的状态向量,输出一个[‑1,1]范围内的标量,作为动作概率分布的期望;Step5、基于建立的海域搜索仿真环境和智能体模型,采用PPO算法实现模型训练。
技术关键词
强化学习算法
强化学习方法
智能体模型
仿真环境
决策
概率密度函数
单轮
网络
圆心
矩形
顶点
索引
场景
节点
参数
速度
运动