摘要
本申请涉及车辆控制的技术领域,公开一种基于示范辅助的强化学习悬架控制方法、系统及存储介质,方法包括:根据示范样例使用克隆模仿学习算法进行控制策略初始化;根据预设的深度确定性策略梯度算法生成状态转移四元组集合;使用最小化贝尔曼误差算法学习评价者网络;根据策略参数最大化行动‑值函数的估计值学习行动者网络;状态转移四元组存入第一回放缓存中;从第一回放缓存中抽样多个状态转移四元组,更新评价者网络和行动者网络;根据当前状态的价值函数估计值与目标之间的均方误差得到价值函数损失;根据当前控制策略和示范样例产生者之间差值的最小值作为策略损失;根据总损失执行随机梯度下降优化控制策略的参数,提升训练样本效率。
技术关键词
悬架控制方法
执行随机梯度下降
网络
参数
优化控制策略
示范系统
学习算法
悬架控制系统
控制智能体
滑动滤波
样本
误差
补偿算法
汽车悬架
数据
滤波算法
系统为您推荐了相关专利信息
异常识别方法
磁异常数据
融合深度学习模型
运动
环境噪声干扰
耦合方法
深度确定性策略梯度
精英遗传算法
双时间尺度
决策
检测评估方法
时空特征学习
注意力
检测评估系统
模态特征
高速连接器
仿真优化方法
网格模型
三维结构
时域电磁场
组织
图像处理模块
光发射模块
AR眼镜
诊疗设备