一种基于DeepSeek训练框架的多模态自动驾驶训练方法

正文

推荐专利

申请号：CN202511408309

申请日期：2025-09-29

公开号：CN120910477A

公开日期：2025-11-07

类型：发明专利

摘要

本发明涉及自动驾驶技术领域，尤其涉及一种基于DeepSeek训练框架的多模态自动驾驶训练方法。包括：读取DriveLM‑nuScenes数据集的多视角摄像头图像与文本指令，按环视布局拼接图像形成全景表示；对全景图像进行缩放、归一化及标准化处理得到图像张量；对文本指令进行标记化处理，插入图像占位符与对话角色标记，结构化文本输入表示；通过多模态对齐模块实现视觉与文本标记序列的维度对齐、位置编码附加及跨模态注意力融合，生成多模态嵌入表示；将嵌入表示输入DeepSeek语言模型自回归生成决策文本，以带掩码的交叉熵损失为优化目标。本发明解决了现有多视图融合不足、模态对齐薄弱等问题，提升了复杂场景下的认知可靠性与决策可解释性，适配车载边缘部署。

技术关键词

文本序列标记图像多模态对齐模块注意力框架训练优化方法跨模态自然语言信息优化器局部纹理特征损失函数设计位置编码信息指令语义视觉多视角