摘要
本发明公开了一种基于多模态的生成式广义零样本学习方法,包括如下步骤:S1、采集并预处理图像和文本数据;S2、采用自监督学习优化图像特征,生成视觉特征向量;S3、采用上下文注意力增强文本特征,生成文本特征向量;S4、构建跨模态嵌入空间,对齐视觉与文本特征,构造正负样本对;S5、计算样本对相似度,优化跨模态特征分布;S6、引入正则化约束,利用改进的高斯混合变分自编码器建模已知类别特征,并生成未知类别特征;S7、训练分类模型,在优化后的跨模态嵌入空间进行类别预测。本发明融合视觉与文本特征,优化跨模态对齐,提升未知类别特征质量,克服现有零样本学习方法在跨模态对齐和泛化能力上的不足。
技术关键词
零样本学习方法
视觉特征
文本特征向量
跨模态
生成特征
协方差矩阵
多模态
训练分类模型
高斯混合模型
编码器
广义
监督学习策略
交叉注意力机制
图像局部特征
语义特征