多目标密集开放词汇图像记录

AITNT
正文
推荐专利
多目标密集开放词汇图像记录
申请号:CN202410809143
申请日期:2024-06-21
公开号:CN120833509A
公开日期:2025-10-24
类型:发明专利
摘要
提供了多目标密集开放词汇图像记录。多目标密集开放词汇系统包括图像编码器和分类器。图像编码器包括概括对比语言图像预训练(CLIP)头部,其在来自未标记和已标记图像数据的有监督损失上进行训练。随着容量的增长,概括CLIP头部损失开放词汇能力,并且利用由密集CLIP头部生成的伪标签来抵消所述损失。概括CLIP头部可操作来从源设备接收所捕获图像,并且基于当前图像生成图像嵌入。分类器可操作来从文本编码器接收一个或多个目标,从概括CLIP接收多个图像嵌入,对所述多个图像嵌入进行分类以标识包含所述一个或多个目标的一个或多个输出图像,并且将所述一个或多个输出图像呈现给目的地设备。
技术关键词
图像嵌入 图像编码器 文本编码器 微调特征 分类器 标签 标记 语义 数据 标识 聚类 变换器 解码器 注意力 对象 相机 存储器 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号