基于多模态大模型的自动驾驶模型、训练和自动驾驶方法

正文

推荐专利

申请号：CN202411545595

申请日期：2024-10-31

公开号：CN119514635A

公开日期：2025-02-25

类型：发明专利

摘要

本公开提供了一种基于多模态大模型的自动驾驶模型、训练和自动驾驶方法，涉及计算机技术领域，尤其涉及自动驾驶和人工智能技术领域。实现方案为：获取训练语料数据集，至少包括视觉文本对齐语料和用于自动驾驶场景的空间理解训练语料；利用视觉编码器对视觉文本对齐语料中的视觉数据进行编码，以得到编码数据；利用映射层对编码数据进行映射；利用生成层分别对经映射的编码数据和文本数据以及空间理解训练语料进行处理，以得到自动驾驶模型的第一预测结果和第二预测结果；至少基于第一预测结果和第二预测结果来调整自动驾驶模型的参数。利用本公开的实施例训练得到的自动驾驶模型既具有多模态信息的理解能力，也具有自动驾驶场景下的推理能力。

技术关键词

文本视觉视频编码数据自动驾驶方法自动驾驶装置仿真环境仿真数据场景视频编码器样本指令参数自动驾驶系统多模态信息视频解码器处理器

系统为您推荐了相关专利信息

线上商品尺寸信息提取方法及系统

图像语义提取信息提取模型尺寸信息提取方法文本商品信息管理系统

基于多光谱图像分析的牛唇纹识别方法

图像分析识别方法多光谱红外光图像采集设备

一种结合体素和空间坐标进行新类别发现的语义分割方法

语义分割方法结合体注意力坐标邻域

一种图文情感类型确定方法、装置、设备及介质

图文文本图像特征提取模型多模态特征融合编码

一种面向语义分割的激光雷达点云压缩系统

激光雷达点云压缩编码特征非线性网络激光雷达点云数据

基于多模态大模型的自动驾驶模型、训练和自动驾驶方法

站点导航

APP 下载