摘要
本发明公开了一种基于多模态大语言模型的开放目标检测模型优化方法。该方法包括以下步骤:1)利用多模态大语言模型(Vision Large Language Model,VLM)描述图片中的环境;2)利用图片环境的文本描述辅助开放目标检测的训练;3)在推理过程中,将图片环境作为条件优化开放目标检测的输出标签。通过这一优化方案,可以在保持原模型性能的同时,利用多模态大语言模型的开放环境描述能力,提升目标标签的识别准确性。这一方法适用于视觉语言多模态领域的研究和实践。
技术关键词
大语言模型
模型优化方法
多模态
图片
文本
视觉
标签
编码
画面
模块
坐标
系统为您推荐了相关专利信息
数据分析方法
深度学习算法
文本
对象
循环神经网络模型
深度神经网络
点检设备
故障诊断方法
多任务损失函数
训练样本数据