摘要
本发明涉及一种基于自适应动态拓扑结构的强化学习驾驶决策方法,属于智能驾驶技术领域。本发明通过搭建强化学习参数优化网络和Typed‑balanced经验池,从经验池中采集样本供强化学习参数优化网络进行学习;根据实时采集环境参数生成和车辆控制参数;通过强化学习参数优化网络优化驾驶决策参数,通过奖励预测网络比较优化的驾驶决策参数和经验参数的奖励值,比较奖励值以选择较优的驾驶决策参数,并进一步计算得到真实车辆控制参数。本发明通过基于强化学习的自适应动态拓扑结构框架进行智能驾驶场景下的运动决策,能够提高强化学习算法的路径规划能力,并提高自动驾驶决策过程的透明性。
技术关键词
车辆控制参数
动态拓扑结构
驾驶决策方法
样本
采集环境参数
PID控制器
智能驾驶场景
强化学习框架
索引
智能驾驶技术
强化学习算法
速度
网络优化
编码器
注意力机制
切片
系统为您推荐了相关专利信息
智能文件
分拣方法
命名实体识别
SimHash算法
服务器
优化设计方法
起落架
外筒结构
可靠性优化设计
Kriging模型
知识库构建方法
数字水印
数据
强化学习框架
时序
分区成像系统
图像
纳米结构单元
神经网络模型
光学传感器
连续型数据
深度神经网络模型
样本
矩阵
随机森林