摘要
本发明公开了场景驱动的高泛化性联邦强化学习自动驾驶系统及方法,模仿学习专家从专家演示中学习隐式专家偏好,结合动态驾驶建议实现对强化学习学生特征提取、奖励函数建模、损失函数构建,群体优化多角度指导,针对性解决强化学习目标对齐难题;模仿学习专家,通过交叉注意力增强多学习任务之间的联系,实现场景深度感知和场景语义感知嵌入指导下的鸟瞰图重构过程。通过跨场景优化,实现不同专家数据分布之间的特异性经验共享,训练高普适性模仿学习专家;通过提出的奖励函数解码器输出运动规划、奖励反馈和动态驾驶建议作为强化学习学生训练和优化依据,实现驾驶规则的学习。通过时序处理模块结合知识蒸馏,提高原始图像输入的表征能力。
技术关键词
解码器
自动驾驶系统
交叉注意力机制
语义
学生
前馈神经网络
时序
多层感知器
场景
蒸馏
速度
轨迹
重构
对齐模块
门控循环单元
样本
参数
运动