摘要
本发明公开了一种基于深度强化学习的AUV船体归坞方法,包括:s1:实时采集当前状态st,利用当前的参数化策略网络采样动作at,将at的概率密度值记为p(at);s2:将at代入动力学方程,计算出下一时刻状态st+1和奖励函数rt,组成元组存入经验池;s3:当经验池中元组数量满足条件转s4,否则转s1;s4:将经验池中的st,st+1输入到状态价值网络得到函数值,并计算优势函数,从经验池中采样bs个元组,利用时序差分误差对状态价值网络的参数进行梯度下降,实现策略评估;s5:从经验池中采样bs个元组,引入回滚机制对策略网络的参数进行梯度下降,实现策略改进;s6:AUV满足终止条件结束,否则转s1。
技术关键词
深度强化学习
策略
船体
船坞
时序
前馈神经网络
误差
机制
超参数
方程
终端
比率
因子
偏差
数据
系统为您推荐了相关专利信息
分层
多模态
解剖特征
生成解剖结构
影像输出单元
标准单元
高效设计方法
编辑
模板
集成电路设计技术
深度强化学习模型
卫星网络环境
神经网络权值
决策
策略
船用起重机
船载起重机
非线性神经网络
方程
台车
卸载策略
资源分配策略
服务器
终端
资源分配优化方法