摘要
本发明公开了基于文本增强和动态多模态匹配的食品图像分类方法,包括输入食品图像,使用ViT编码器提取图像特征,使用Qwen VL大模型为图像生成文本描述,将生成的文本描述输入文本编码器生成文本嵌入;使用自适应匹配机制分别计算图像‑文本‑相似度和文本‑图像相似度;分别进行模态内和跨模态特征融合,并对特征进行拼接和变换;计算对比损失函数、分类损失函数以及总损失函数,反向传播进行多目标优化;对融合特征应用softmax函数得到图像类别概率。本发明结合自注意力与双向交叉注意力机制引导特征权重动态分配,联合对比损失、分类损失进行多目标优化,实现跨模态语义高效融合,全面提升食品图像分类的精度与泛化能力。
技术关键词
食品图像分类
多模态
文本编码器
融合特征
交叉注意力机制
动态
Softmax函数
标记
图像类别标签
模态特征
符号
分类方法
跨模态