一种基于多模态语义生成与图文融合的长尾图像识别方法

正文

推荐专利

申请号：CN202510515241

申请日期：2025-04-23

公开号：CN120495814A

公开日期：2025-08-15

类型：发明专利

摘要

本发明公开了一种基于多模态语义生成与图文融合的长尾图像识别方法，包括下述步骤：对尾类图像提取结构化语义描述；基于多模态视觉语言模型进行语义改写与增强，生成图像语义扩展描述；基于语义判重和风格对齐机制优化图像语义扩展描述，得到优化后的文本描述集合；将优化后的文本描述集合输入文生图模型，生成尾类图像样本，进行语义和视觉质量筛选，构建得到用于训练的增强图像集；基于原始长尾数据集与增强图像集构建训练数据集，训练图文融合分类模型；将待识别图像输入训练后的图文融合分类模型，输出全部类别的分类结果。本发明增强了在长尾分布场景下的判别能力，并具备更强的泛化特性。

技术关键词

图像识别方法多模态图文双分支网络风格图像编码器视觉判重方法文本编码器冗余编码器参数样本数据语义向量模板美学

一种基于多模态语义生成与图文融合的长尾图像识别方法

站点导航

APP 下载