摘要
本发明涉及无人艇领域,具体涉及一种基于最大熵强化学习的多无人艇目标搜索方法,包括:初始化策略网络和价值网络,并设置目标价值网络;无人艇根据当前策略网络在当前状态下采样无人艇的当前动作,执行当前动作与环境交互,通过建立的部分可观测马尔科夫决策模型中设计的奖励函数,得到奖励、下一个时刻状态以及终止信息,并存储到经验回放缓冲区;从经验回放缓冲区随机采样一部分经验,计算目标值;通过目标值更新价值网络参数和策略网络参数;引入额外的损失函数,更新熵调节参数;更新目标价值网络的参数;判断目标价值网络当前的参数与前一个参数差值的绝对值是否小于阈值。通过本方法,提高了无人艇在复杂环境下的搜索效率。
技术关键词
搜索方法
网络
策略
参数
梯度下降法
多无人艇
决策
速度
定义
障碍物
坐标系
速率
强度
运动
流速
算法
元素
误差
系统为您推荐了相关专利信息
生物质气化炉
自动给料
模糊控制算法
神经网络算法
金属探测器
Winograd卷积
数据
人工智能神经网络
矩阵
融合算法
数据监测预警
监督学习框架
文本情感分析
预警机制
网络分析