摘要
本申请提供了一种零样本图像分类系统及方法,所述系统包括教师模型和学生模型,两者架构相同,均包括:视觉编码器、语义编码器、视觉‑语义对齐模块和零样本分类模块;教师模型的视觉编码器以CNN和Transformer级联的方式构建;选取BERT网络作为教师模型的语义编码器;基于跨模态注意力机制构建教师模型和学生模型的视觉‑语义对齐模块;采用全连接层作为教师模型和学生模型的零样本分类模块;学生模型的视觉编码器采用轻量化EnviroNet网络构建;学生模型的语义编码器采用Core‑BER网络构建。本申请的优势在于:在零样本设置下,能保持较高未见类别分类性能,同时降低模型复杂度,更有利于实际设备上的部署。
技术关键词
图像分类系统
零样本图像分类
教师
对齐模块
学生
注意力机制
ResNet网络
跨模态
语义向量
视觉特征
蒸馏
文本
系统为您推荐了相关专利信息
自动检测方法
序列
对齐模块
前馈神经网络
编码器
语言学习内容
智能语言学习方法
模态特征
梅尔频率倒谱系数
短时傅里叶变换
特征金字塔
深度图
三维重建方法
神经网络训练
输入端
图像分类模型
图像分类方法
二维离散余弦变换
离散小波变换
图像分类系统
车辆流量预测方法
双模态优化
时间序列特征
对齐模块
注意力机制