基于视觉语言模型和区域建议网络的物体标注方法和装置

正文

推荐专利

申请号：CN202510310943

申请日期：2025-03-17

公开号：CN120388202A

公开日期：2025-07-29

类型：发明专利

摘要

本发明实施例提供了一种基于视觉语言模型和区域建议网络的物体标注方法和装置，所述方法包括：获取待标注图像和提示语句；通过视觉语言模型，对待标注图像和提示语句进行多模态融合，生成物体名称；通过区域建议网络，根据物体名称对待标注图像进行回归分类，生成物体类别候选区域；根据物体名称与物体类别候选区域进行匹配标注，生成物体标注图像，能够有效提高物体检测的准确性，尤其是在面对未见过的物体时，仍能够保持较高的检测性能，适应开集检测；能够显著降低人工标注的成本，降低标注过程复杂性和计算开销，同时提升标注过程的效率和准确性，具有广泛的应用前景。

技术关键词

区域建议网络物体标注方法视觉特征标注装置图像多模态语句文本生成特征滑动窗口处理器计算机程序产品物体检测指令计算机设备存储器

系统为您推荐了相关专利信息

使用由大语言模型从自然语言输入生成的可执行代码编辑数字图像

自然语言文本大语言模型编辑对象客户端设备

一种微调图像分类模型的方法与计算设备

训练分类模型图像分类模型分类特征样本标签

一种用于锂电池充电器的绝缘外壳表面缺陷图像检测方法

锂电池充电器绝缘外壳多尺度特征提取特征值集合表面缺陷图像

一种种植牙导板生成方法及系统

种植牙导板生成三维模型顶点三维重建方法面片

一种基于多任务的胎儿心脏标准切面检测方法

胎儿心脏融合特征金字塔网络多任务卷积模块

基于视觉语言模型和区域建议网络的物体标注方法和装置

站点导航

APP 下载