摘要
本申请提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置,涉及目标检测技术领域,构建边缘案例图像文本对数据集,基于第一边缘案例图像的文本描述构建第一问题提示文本,将第一边缘案例图像和第一问题提示文本输入多模态大语言模型,得到标记目标位置和名称的图像和答案文本,基于第一边缘案例图像和边缘案例图像对应的文本描述和多模态大语言模型的输出结果,对多模态大语言模型进行微调,得到训练完毕的多模态大语言模型,将待检测图像输入训练完毕的多模态大语言模型,得到目标检测结果。通过构建的边缘案例图像文本对数据集对多模态大语言模型进行微调,在目标检测中显著提高其检测准确率。
技术关键词
大语言模型
多模态
答案
解码器
子模块
交通设施
文本编码器
图像编码器
标记
数据
命令
格式
障碍物
输入模块
令牌
处理器