摘要
本发明提出一种基于时序建模的多场景自动驾驶决策方法,该方法在仿真平台中构建驾驶场景,采用自车引导的特征聚合机制,关注关键交通参与者并保留全局信息。通过强化学习算法训练多个策略模型并采集状态、动作与奖励数据,引入奖励重构机制实现多场景奖励对齐,并注入符合人类驾驶偏好的规避行为信号,构建统一高质量决策数据集。随后将马尔可夫决策过程转化为时序建模任务,结合GRU与Transformer模块构建高效的时序策略模型,输出高层次行为指令,在不牺牲单场景决策能力的基础上,实现多场景统一策略建模。模型可通过指导速度嵌入轨迹,便于部署至真实自动驾驶系统。相较于传统方法,本发明实现了多场景决策一体化,具备更强的决策能力与部署适应性。
技术关键词
自动驾驶决策方法
时序
强化学习策略
高层次
交通
重构
驾驶决策模型
多场景
机制
速度
轨迹
序列
运动控制模块
自动驾驶系统
强化学习算法
红绿灯
系统为您推荐了相关专利信息
拥堵检测方法
轨迹
画面
交通路口摄像头
实时视频流
氢气长管拖车
交通系统
一体化规划
交通流量优化
储氢功能
卷积长短期记忆
管理方法
位置更新
双向长短期记忆
门控循环网络
混合预测模型
态势预测方法
交通拥堵指数
ETC门架
时间段
编码器解码器
卷积长短期记忆
故障检测方法
注意力机制
时序