基于多模态大语言模型的开放目标检测模型优化方法

正文

推荐专利

申请号：CN202411492889

申请日期：2024-10-24

公开号：CN119445074A

公开日期：2025-02-14

类型：发明专利

摘要

本发明公开了一种基于多模态大语言模型的开放目标检测模型优化方法。该方法包括以下步骤：1)利用多模态大语言模型(Vision Large Language Model，VLM)描述图片中的环境；2)利用图片环境的文本描述辅助开放目标检测的训练；3)在推理过程中，将图片环境作为条件优化开放目标检测的输出标签。通过这一优化方案，可以在保持原模型性能的同时，利用多模态大语言模型的开放环境描述能力，提升目标标签的识别准确性。这一方法适用于视觉语言多模态领域的研究和实践。

技术关键词

大语言模型模型优化方法多模态图片文本视觉标签编码画面模块坐标

系统为您推荐了相关专利信息

一种基于大模型的任务流数据分析方法

数据分析方法深度学习算法文本对象循环神经网络模型

深度学习与语义推理复合的配置风控智能系统

指令智能系统生成器网络鉴权模块语义

图像生成方法、模型训练方法、装置及电子设备

语义特征样本视觉特征文本编码器

显示设备与控件启动方法

控件语义显示设备图片截屏

一种基于深度神经网络的机电点检设备故障诊断方法

深度神经网络点检设备故障诊断方法多任务损失函数训练样本数据

基于多模态大语言模型的开放目标检测模型优化方法

站点导航

APP 下载