使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置

AITNT
正文
推荐专利
使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置
申请号:CN202411441090
申请日期:2024-10-16
公开号:CN118965004B
公开日期:2025-01-24
类型:发明专利
摘要
本申请提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置,涉及目标检测技术领域,构建边缘案例图像文本对数据集,基于第一边缘案例图像的文本描述构建第一问题提示文本,将第一边缘案例图像和第一问题提示文本输入多模态大语言模型,得到标记目标位置和名称的图像和答案文本,基于第一边缘案例图像和边缘案例图像对应的文本描述和多模态大语言模型的输出结果,对多模态大语言模型进行微调,得到训练完毕的多模态大语言模型,将待检测图像输入训练完毕的多模态大语言模型,得到目标检测结果。通过构建的边缘案例图像文本对数据集对多模态大语言模型进行微调,在目标检测中显著提高其检测准确率。
技术关键词
大语言模型 多模态 答案 解码器 子模块 交通设施 文本编码器 图像编码器 标记 数据 命令 格式 障碍物 输入模块 令牌 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号