基于视觉语言模型和区域建议网络的物体标注方法和装置

AITNT
正文
推荐专利
基于视觉语言模型和区域建议网络的物体标注方法和装置
申请号:CN202510310943
申请日期:2025-03-17
公开号:CN120388202A
公开日期:2025-07-29
类型:发明专利
摘要
本发明实施例提供了一种基于视觉语言模型和区域建议网络的物体标注方法和装置,所述方法包括:获取待标注图像和提示语句;通过视觉语言模型,对待标注图像和提示语句进行多模态融合,生成物体名称;通过区域建议网络,根据物体名称对待标注图像进行回归分类,生成物体类别候选区域;根据物体名称与物体类别候选区域进行匹配标注,生成物体标注图像,能够有效提高物体检测的准确性,尤其是在面对未见过的物体时,仍能够保持较高的检测性能,适应开集检测;能够显著降低人工标注的成本,降低标注过程复杂性和计算开销,同时提升标注过程的效率和准确性,具有广泛的应用前景。
技术关键词
区域建议网络 物体标注方法 视觉特征 标注装置 图像 多模态 语句 文本 生成特征 滑动窗口 处理器 计算机程序产品 物体检测 指令 计算机设备 存储器
系统为您推荐了相关专利信息
1
使用由大语言模型从自然语言输入生成的可执行代码编辑数字图像
自然语言文本 大语言模型 编辑 对象 客户端设备
2
一种微调图像分类模型的方法与计算设备
训练分类模型 图像分类模型 分类特征 样本 标签
3
一种用于锂电池充电器的绝缘外壳表面缺陷图像检测方法
锂电池充电器 绝缘外壳 多尺度特征提取 特征值集合 表面缺陷图像
4
一种种植牙导板生成方法及系统
种植牙导板 生成三维模型 顶点 三维重建方法 面片
5
一种基于多任务的胎儿心脏标准切面检测方法
胎儿心脏 融合特征 金字塔网络 多任务 卷积模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号