摘要
本发明实施例提供了一种基于视觉语言模型和区域建议网络的物体标注方法和装置,所述方法包括:获取待标注图像和提示语句;通过视觉语言模型,对待标注图像和提示语句进行多模态融合,生成物体名称;通过区域建议网络,根据物体名称对待标注图像进行回归分类,生成物体类别候选区域;根据物体名称与物体类别候选区域进行匹配标注,生成物体标注图像,能够有效提高物体检测的准确性,尤其是在面对未见过的物体时,仍能够保持较高的检测性能,适应开集检测;能够显著降低人工标注的成本,降低标注过程复杂性和计算开销,同时提升标注过程的效率和准确性,具有广泛的应用前景。
技术关键词
区域建议网络
物体标注方法
视觉特征
标注装置
图像
多模态
语句
文本
生成特征
滑动窗口
处理器
计算机程序产品
物体检测
指令
计算机设备
存储器
系统为您推荐了相关专利信息
锂电池充电器
绝缘外壳
多尺度特征提取
特征值集合
表面缺陷图像
种植牙导板
生成三维模型
顶点
三维重建方法
面片