摘要
本发明公开了一种基于元学习和经验向量的自动驾驶联邦强化学习方法,包括:构建自动驾驶异质环境;构建Actor网络,通过确定性策略梯度更新Actor网络参数;构建Critic网络,通过元学习算法和误差反向传播算法更新Critic网络参数,训练过程中还加入经验向量整合并更新各自动驾驶车辆的学习经验,以优化全局策略的性能表现;在训练过程中,所有自动驾驶车辆定期将本地Critic网络参数、Actor网络参数和本地经验向量发送至中央服务器聚合。本发明通过提高自动驾驶车辆对环境异质性的适应能力,解决现有联邦强化学习中因环境动态变化和策略性能波动带来的收敛速度变慢和策略泛化能力下降问题,从而提升训练效率和策略鲁棒性。
技术关键词
强化学习方法
确定性策略梯度
虚拟仿真环境
车辆
参数
策略更新
元学习方法
元学习算法
城市道路
误差反向传播
异质
可读存储介质
频率
数据
处理器
网络控制
雨天
噪声
系统为您推荐了相关专利信息
智能校准系统
电压监测仪
温度补偿系数
样本
递归最小二乘算法
检测修正方法
高炉热电偶
材料物性参数
数据
高炉炉缸侵蚀程度