摘要
提供了多目标密集开放词汇图像记录。多目标密集开放词汇系统包括图像编码器和分类器。图像编码器包括概括对比语言图像预训练(CLIP)头部,其在来自未标记和已标记图像数据的有监督损失上进行训练。随着容量的增长,概括CLIP头部损失开放词汇能力,并且利用由密集CLIP头部生成的伪标签来抵消所述损失。概括CLIP头部可操作来从源设备接收所捕获图像,并且基于当前图像生成图像嵌入。分类器可操作来从文本编码器接收一个或多个目标,从概括CLIP接收多个图像嵌入,对所述多个图像嵌入进行分类以标识包含所述一个或多个目标的一个或多个输出图像,并且将所述一个或多个输出图像呈现给目的地设备。
技术关键词
图像嵌入
图像编码器
文本编码器
微调特征
分类器
标签
标记
语义
数据
标识
聚类
变换器
解码器
注意力
对象
相机
存储器
模块