摘要
本发明公开了一种基于人机协作的强化学习自动驾驶方法及系统,属于自动驾驶技术领域。包括:获取自动驾驶车辆的当前状态;将自动驾驶车辆的当前状态输入训练好的自动驾驶网络进行处理,以获取自动驾驶车辆当前时刻的决策动作;引入无奖励策略学习方法,以人类接管成本最小化、动作分布熵和平稳度最大化为目标,通过显式干预机制和隐式干预机制对自动驾驶网络进行训练。设计了显式和隐式干预的价值函数,以最小的人类接管成本和舒适度最大化为目标,训练智能体在不可见的交通场景中进行驾驶;解决自动驾驶汽车在复杂动态交通环境中的策略优化问题。
技术关键词
自动驾驶方法
策略学习方法
人机协作
自动动作
车辆
人类
网络
动态交通环境
机制
自动驾驶系统
自动驾驶技术
训练智能
决策
计算机程序产品
处理器
指令
汽车
可读存储介质
系统为您推荐了相关专利信息
集成计算机
蓝牙眼镜
软件算法
识别交通信号灯
听觉
电池自放电
电池单体
故障诊断方法
电压
车辆充电状态
减速控制方法
智能驾驶车辆
车辆外部环境
车辆状态信息
频率
声音信号特征
车辆识别模型
传感模块
声传感装置
车道