一种基于大语言模型的开放世界目标检测的增量学习方法

正文

推荐专利

申请号：CN202510817132

申请日期：2025-06-18

公开号：CN120747707B

公开日期：2026-01-02

类型：发明专利

摘要

本申请提供一种基于大语言模型的开放世界目标检测的增量学习方法，包括：获取由标注了第一类别的目标的第一RGB图像样本训练得到第一开放世界目标检测模型；建立包括多个第二RGB图像样本的训练集，每个第二RGB图像样本标注了第一类别和第二类别的目标；利用大语言模型对第一类别和第二类别进行处理，生成每个类别的文本形式的属性特征；利用第一开放世界目标检测模型对第二RGB图像样本和每个类别的文本形式的属性特征进行处理，得到目标框预测值、目标类别预测值以及未知类别目标预测值，由此确定总损失值；基于总损失值，更新第一开放世界目标检测模型的参数，由此得到第二开放世界目标检测模型。本申请增强了模型在新场景中的泛化能力和适应性。

技术关键词

大语言模型视觉特征提取增量学习方法上下文特征文本样本融合视觉特征图像矩阵编解码器训练集参数拼接单元分支模块可读存储介质处理单元学习装置计算机

一种基于大语言模型的开放世界目标检测的增量学习方法

站点导航

APP 下载