使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置

正文

推荐专利

申请号：CN202411441090

申请日期：2024-10-16

公开号：CN118965004B

公开日期：2025-01-24

类型：发明专利

摘要

本申请提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置，涉及目标检测技术领域，构建边缘案例图像文本对数据集，基于第一边缘案例图像的文本描述构建第一问题提示文本，将第一边缘案例图像和第一问题提示文本输入多模态大语言模型，得到标记目标位置和名称的图像和答案文本，基于第一边缘案例图像和边缘案例图像对应的文本描述和多模态大语言模型的输出结果，对多模态大语言模型进行微调，得到训练完毕的多模态大语言模型，将待检测图像输入训练完毕的多模态大语言模型，得到目标检测结果。通过构建的边缘案例图像文本对数据集对多模态大语言模型进行微调，在目标检测中显著提高其检测准确率。

技术关键词

大语言模型多模态答案解码器子模块交通设施文本编码器图像编码器标记数据命令格式障碍物输入模块令牌处理器

使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置

站点导航

APP 下载