摘要
本发明涉及一种用于自动驾驶赛车的轨迹引导强化学习方法,包括:模拟赛道环境,并确定描述智能体动态行为的运动模型;设置智能体的动作空间和状态空间;使用TD3算法建立轨迹引导强化学习架构,其中轨迹引导强化学习架构具有评价网络和执行网络;在轨迹引导强化学习架构中引入摩擦系数的不确定性对轨迹引导强化学习架构进行循环训练,使得智能体通过与环境的交互逐步学习如何跟踪轨迹,并适应不同的摩擦系数条件;以及对轨迹引导强化学习架构的评价网络和执行网络的参数进行优化。
技术关键词
网络
转向角
轨迹
强化学习方法
参数
车辆运动学模型
车辆动力学模型
车辆纵向速度
路面摩擦系数
规划
赛车
单轨
噪声
追踪算法
策略更新
样本
动态
系统为您推荐了相关专利信息
风险预测模型
多源监测数据
风险预测方法
水电站
统一时间尺度
联合概率数据关联
智能资源分配
视觉传感器
路径规划算法
最佳资源配置
人形机器人
交易方法
阶段
交易平台
基础功能模块
电成像测井
地层介电常数
裂缝型
度计算方法
泥浆电阻率