摘要
本发明公开了一种基于多模态语义生成与图文融合的长尾图像识别方法,包括下述步骤:对尾类图像提取结构化语义描述;基于多模态视觉语言模型进行语义改写与增强,生成图像语义扩展描述;基于语义判重和风格对齐机制优化图像语义扩展描述,得到优化后的文本描述集合;将优化后的文本描述集合输入文生图模型,生成尾类图像样本,进行语义和视觉质量筛选,构建得到用于训练的增强图像集;基于原始长尾数据集与增强图像集构建训练数据集,训练图文融合分类模型;将待识别图像输入训练后的图文融合分类模型,输出全部类别的分类结果。本发明增强了在长尾分布场景下的判别能力,并具备更强的泛化特性。
技术关键词
图像识别方法
多模态
图文
双分支网络
风格
图像编码器
视觉
判重方法
文本编码器
冗余
编码器参数
样本
数据
语义向量
模板
美学