摘要
本发明公开了一种基于多模态融合的食物营养评估方法及系统,该方法包括:步骤1:通过多尺度双分支Transformer编码器并行提取食物RGB图像和RGB‑D深度图像的多尺度特征;步骤2:利用深度感知增强注意力融合模块对所述多尺度特征进行跨模态融合;步骤3:基于融合后的特征构建营养预测分支,输出五种宏量营养素含量;步骤4:将训练数据集在模型上采用端到端的方式进行训练,并将待检测的食物RGB图像和RGB‑D图像输入到训练好的模型中进行营养含量的预测。本发明利用食品RGB图像对应的RGB‑D深度模态来增强对不同食物类型体积信息的感知,通过深度感知增强注意力模块融合食物RGB图像中的视觉信息和RGB‑D图像中的空间物理特征,以生成具有鉴别信息的融合特征,提高评估准确性。
技术关键词
营养评估方法
宏量营养素
多模态特征
编码器
局部注意力机制
图像
分支
Sigmoid函数
融合特征
多尺度特征
跨模态
全局平均池化
碳水化合物
校准特征
矩阵
营养评估系统