摘要
本申请公开了一种自动驾驶端到端模型自我纠正方法、装置及介质,该方法首先通过端到端自动驾驶模型评估多视图图像,检测失败案例并提取中间输出信息;然后将失败案例的原因解析为多模态提示,结合鸟瞰图布局和场景描述,通过视觉语言模型生成数据需求;接着利用改进的生成模型Drive‑Sora生成具有时空一致性和/或多样性的多视图视频数据;最后将生成的数据作为新的训练数据,对端到端自动驾驶模型进行迭代更新与优化,并通过性能评估进入下一轮数据生成与优化循环。本发明显著提升了自动驾驶模型的鲁棒性和泛化能力,降低了长尾场景下的碰撞率和规划误差,为自动驾驶技术的发展和应用提供了有力支持。
技术关键词
Agent系统
交叉注意力机制
纠正方法
多模态
文本编码器
视频
布局
变换器
图像
场景
规划
视觉
数据收集模块
自动驾驶技术
多层感知器
纠正装置
分类器
系统为您推荐了相关专利信息
情感识别方法
情感机器人
神经元工作原理
人机情感交互
情绪调节系统
异常检测方法
视觉特征
融合特征
预训练模型
多模态
低光图像增强方法
离散小波变换
文本特征向量
多模态
样本
代码摘要生成方法
网络
交叉注意力机制
解码器处
生成代码