摘要
本发明公开了一种基于半监督场景识别的图片分类管理方法,引入视觉‑语言跨模态模型,定义有标签图片集和无标签图片集作为模型训练集;提取图片视觉特征和图片文本标注的特征;抽取视觉特征图池化之后的嵌入作为图片样本的全局信息,将其输入到场景判别器中得到场景鉴别结果;输入视觉特征图池化前的嵌入并计算类别相关特征;利用图片数据集中类别的共现关系,将标签空间划分为若干簇;同时引入场景识别的辅助任务,利用标签中的共现信息将类别划分为不同的簇,输入图片全局特征来对场景进行判别,得到损失函数。本发明能够提升图片分类的速度与精度,同时提供了场景关键词检索功能,来帮助用户快速对指定图片进行检索定位。
技术关键词
图片分类管理方法
视觉特征
场景
文本编码器
标签图片集
跨模态
交叉注意力机制
无标签样本
无标签数据
半监督学习
矩阵
分类器
训练集
代表
系统为您推荐了相关专利信息
场景显示方法
虚拟对象
显示虚拟场景
图形用户界面
可读存储介质
训练图像序列
图像采集装置
模型生成方法
锚点
场景构建方法