一种基于大型视觉语言模型的自动驾驶解释文本确定方法

AITNT
正文
推荐专利
一种基于大型视觉语言模型的自动驾驶解释文本确定方法
申请号:CN202411597741
申请日期:2024-11-11
公开号:CN119142366A
公开日期:2024-12-17
类型:发明专利
摘要
本发明涉及自动驾驶技术领域,具体公开了一种基于大型视觉语言模型的自动驾驶解释文本确定方法,所述方法包括获取多视角摄像头图像、BEV地图图像以及文本查询模板;对多视角摄像头图像中的视频特征进行提取,对BEV地图图像中的图像特征进行提取;基于模态编码器对图像特征与视频特征进行对齐;将文本查询模板进行编码,生成文本标记,基于共享投影器将对齐后的图像特征与视频特征映射到文本嵌入空间,生成视觉标记,将视觉标记与文本标记输入LLM骨干模型,实现了全面的三维动/静态情境感知以及局部场景与全局地图的视觉表示统一,3D LVLM架构具备出色的三维空间理解和动态时间推理能力,有效提升端到端自动驾驶的准确性和安全性。
技术关键词
文本 视觉 图像编码器 视频编码器 多视角 基准 模板 标记 自动驾驶技术 全局地图 生成场景 分层 序列
系统为您推荐了相关专利信息
1
一种基于多模态情感识别和定制化人像生成的机器人拟人化交互方法
视频内容特征 拟人化交互方法 多模态情感识别 个性化头像 面部
2
基于多模态感知的低代码智能开发辅助方法、系统、设备
开发辅助方法 自然语言 多模态 开发辅助系统 计算机视觉识别
3
一种基于AI指令的设备操作与维护辅助系统
视觉显示单元 AR头戴设备 眼球追踪传感器 数据处理单元 环境光传感器
4
一种基于视觉感知的并联雕刻机器人及其控制方法
雕刻机器人 框架支座 直线模组滑台 分支 虎克铰
5
预训练模型的微调及科学假设信息的提取方法、装置、设备、介质和产品
预训练模型 预测科学 文本 样本 适配器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号