一种基于大型视觉语言模型的自动驾驶解释文本确定方法

正文

推荐专利

申请号：CN202411597741

申请日期：2024-11-11

公开号：CN119142366A

公开日期：2024-12-17

类型：发明专利

摘要

本发明涉及自动驾驶技术领域，具体公开了一种基于大型视觉语言模型的自动驾驶解释文本确定方法，所述方法包括获取多视角摄像头图像、BEV地图图像以及文本查询模板；对多视角摄像头图像中的视频特征进行提取，对BEV地图图像中的图像特征进行提取；基于模态编码器对图像特征与视频特征进行对齐；将文本查询模板进行编码，生成文本标记，基于共享投影器将对齐后的图像特征与视频特征映射到文本嵌入空间，生成视觉标记，将视觉标记与文本标记输入LLM骨干模型，实现了全面的三维动/静态情境感知以及局部场景与全局地图的视觉表示统一，3D LVLM架构具备出色的三维空间理解和动态时间推理能力，有效提升端到端自动驾驶的准确性和安全性。

技术关键词

文本视觉图像编码器视频编码器多视角基准模板标记自动驾驶技术全局地图生成场景分层序列

系统为您推荐了相关专利信息

一种基于多模态情感识别和定制化人像生成的机器人拟人化交互方法

视频内容特征拟人化交互方法多模态情感识别个性化头像面部

基于多模态感知的低代码智能开发辅助方法、系统、设备

开发辅助方法自然语言多模态开发辅助系统计算机视觉识别

一种基于AI指令的设备操作与维护辅助系统

视觉显示单元 AR头戴设备眼球追踪传感器数据处理单元环境光传感器

一种基于视觉感知的并联雕刻机器人及其控制方法

雕刻机器人框架支座直线模组滑台分支虎克铰

预训练模型的微调及科学假设信息的提取方法、装置、设备、介质和产品

预训练模型预测科学文本样本适配器

一种基于大型视觉语言模型的自动驾驶解释文本确定方法

站点导航

APP 下载