摘要
本申请提出一种基于自回归闭环预测的多模态自动驾驶场景生成方法,包括:利用预训练的离散编码器将自动驾驶场景视频、场景理解预测问答及轨迹规划数据编码为统一的多模态离散编码;将多模态离散编码整合为编码序列,采用遮罩策略覆盖轨迹编码,以去除遮罩的原始编码作为监督目标,通过自回归范式训练生成模型,并在场景理解、场景预测及轨迹规划数据集上进行微调;推理时,输入车辆摄像头采集的初始场景图像及用户提示词,模型根据初始信息生成未来场景离散编码序列,并通过遮罩轨迹信息实现闭环预测;使用对称解码器将生成的编码解码为场景图像、文本问答及车辆轨迹。本申请能够解决现有端到端自动驾驶世界模型的通用性差、效率低的问题。
技术关键词
驾驶场景视频
场景生成方法
计算机执行指令
数据
规划
车辆轨迹信息
图像编码
编码器
多模态
闭环
场景生成装置
文本
多任务
编码模块
解码器