基于文本增强和动态多模态匹配的食品图像分类方法

正文

推荐专利

申请号：CN202510632110

申请日期：2025-05-16

公开号：CN120563895A

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了基于文本增强和动态多模态匹配的食品图像分类方法，包括输入食品图像，使用ViT编码器提取图像特征，使用Qwen VL大模型为图像生成文本描述，将生成的文本描述输入文本编码器生成文本嵌入；使用自适应匹配机制分别计算图像‑文本‑相似度和文本‑图像相似度；分别进行模态内和跨模态特征融合，并对特征进行拼接和变换；计算对比损失函数、分类损失函数以及总损失函数，反向传播进行多目标优化；对融合特征应用softmax函数得到图像类别概率。本发明结合自注意力与双向交叉注意力机制引导特征权重动态分配，联合对比损失、分类损失进行多目标优化，实现跨模态语义高效融合，全面提升食品图像分类的精度与泛化能力。

技术关键词

食品图像分类多模态文本编码器融合特征交叉注意力机制动态 Softmax函数标记图像类别标签模态特征符号分类方法跨模态

基于文本增强和动态多模态匹配的食品图像分类方法

站点导航

APP 下载