摘要
本发明涉及自动驾驶技术领域,尤其涉及一种基于DeepSeek训练框架的多模态自动驾驶训练方法。包括:读取DriveLM‑nuScenes数据集的多视角摄像头图像与文本指令,按环视布局拼接图像形成全景表示;对全景图像进行缩放、归一化及标准化处理得到图像张量;对文本指令进行标记化处理,插入图像占位符与对话角色标记,结构化文本输入表示;通过多模态对齐模块实现视觉与文本标记序列的维度对齐、位置编码附加及跨模态注意力融合,生成多模态嵌入表示;将嵌入表示输入DeepSeek语言模型自回归生成决策文本,以带掩码的交叉熵损失为优化目标。本发明解决了现有多视图融合不足、模态对齐薄弱等问题,提升了复杂场景下的认知可靠性与决策可解释性,适配车载边缘部署。
技术关键词
文本
序列
标记
图像
多模态
对齐模块
注意力
框架
训练优化方法
跨模态
自然语言信息
优化器
局部纹理特征
损失函数设计
位置编码信息
指令
语义
视觉
多视角
系统为您推荐了相关专利信息
融合计算机视觉
辅助教学方法
语义关键词
人体骨骼关键点
英语
表面缺陷检测方法
生成对抗网络
通道注意力机制
工业
融合策略
物联网实时监控
动物
电化学传感器
多模态传感器
因子
线路覆冰监测装置
温湿度传感器
传感器模块
环境光线强度
电源管理单元