摘要
本发明涉及自动驾驶技术领域,具体公开了一种基于大型视觉语言模型的自动驾驶解释文本确定方法,所述方法包括获取多视角摄像头图像、BEV地图图像以及文本查询模板;对多视角摄像头图像中的视频特征进行提取,对BEV地图图像中的图像特征进行提取;基于模态编码器对图像特征与视频特征进行对齐;将文本查询模板进行编码,生成文本标记,基于共享投影器将对齐后的图像特征与视频特征映射到文本嵌入空间,生成视觉标记,将视觉标记与文本标记输入LLM骨干模型,实现了全面的三维动/静态情境感知以及局部场景与全局地图的视觉表示统一,3D LVLM架构具备出色的三维空间理解和动态时间推理能力,有效提升端到端自动驾驶的准确性和安全性。
技术关键词
文本
视觉
图像编码器
视频编码器
多视角
基准
模板
标记
自动驾驶技术
全局地图
生成场景
分层
序列
系统为您推荐了相关专利信息
视频内容特征
拟人化交互方法
多模态情感识别
个性化头像
面部
开发辅助方法
自然语言
多模态
开发辅助系统
计算机视觉识别
视觉显示单元
AR头戴设备
眼球追踪传感器
数据处理单元
环境光传感器