摘要
本发明属于图像处理技术领域,具体为基于伪标签的无监督视觉定位系统。本发明包括区域提议生成模块、区域描述生成模块、查询构建模块;区域提议生成模块通过预训练的目标检测器识别图像中可能存在的实体区域、类别及其置信度,通过类别偏置消除器解决置信度在类别分布的不均匀问题;区域描述生成模块利用多模态大语言模型的跨模态知识生成区域提议的描述,通过描述矫正器修正错误描述;查询构建模块通过修饰树和提示语模板构建查询。本发明利用预训练的目标检测器和多模态大语言模型蕴含的跨模态知识,构建开放词汇的视觉定位伪标签,可显著提升视觉定位的准确率。
技术关键词
视觉定位系统
实体
大语言模型
矫正器
检测器
多模态
模块
标签
构建海量
同义词
结点
图像处理技术
模板
代表
定义
互联网
数据
坐标
系统为您推荐了相关专利信息
大语言模型
故障诊断方法
优化器
词典
知识图谱构建
纳米药物
抗肿瘤免疫应答
化疗药物毒副作用
超滤膜截留分子量
蛋白质二级结构
BGP路由器
网络管理平台
数据发送对象
原生技术
物理