摘要
本申请公开了一种自动驾驶控制模型确定方法、控制方法、设备及介质,涉及强化学习技术领域,将抽取的状态‑动作对输入给训练后的判别器,得出当前状态‑动作对对应的专家额外奖励,之后将专家额外奖励和环境给出的即时奖励共同参与动作价值网络中状态‑动作价值的计算,进而进行策略网络和动作价值网络进行参数更新。由于判别器的训练是基于专家轨迹数据训练得出的,判别器给出的专家额外奖励能够指导智能体更好的向专家轨迹数据的方向进行训练,有利于更快的完成训练过程。判别器的引入应用了模仿学习中的GAIL算法,所以,本发明通过模仿学习和强化学习相结合的方式训练自动驾驶控制模型,提高了自动驾驶控制模型训练的速度。
技术关键词
驾驶控制方法
策略
轨迹
网络
SAC算法
数据
样本
强化学习技术
强化学习算法
处理器
参数
先进先出
表达式
因子
计算机设备
可读存储介质
存储器
决策
系统为您推荐了相关专利信息
探测器
时频分析技术
显示控制终端
特征数据库
信号
控制策略
车灯智能控制系统
智能控制方法
LED车灯
车灯控制模块