摘要
本发明涉及人工智能和机器学习的跨学科研究领域,尤其涉及。本发明提供了一种跨模态食品检索方法,重点是在图像编码器与食谱编码器的基础上增加多粒度交互编码器构建TE I框架,将给定的图像‑文本配对数据分别输入到图像编码器与食谱编码器进行训练学习,图像编码器提取全局视觉特征,食谱编码器提取层次化特征并使用线性层获得全局食谱特征,多粒度交互编码器提取多粒度特征,所述层次化特征与多粒度特征计算成对的自注意力并取平均值得多粒度交互特征,基于层次化语义对齐损失函数对齐两种模态之间的相关性。目的是探索图像和文本模态之间的多粒度互动相关性,以提高跨模态检索性能。
技术关键词
图像编码器
检索方法
跨模态
全局视觉特征
层次化语义
多粒度特征
交互特征
文本
变换器
线性
注意力
三元组
数据
框架
基础
指令
实体
系统为您推荐了相关专利信息
异构终端设备
决策管理方法
种植业
多模态
无人机
图像补全方法
编码器
解码器
跨模态图像
融合特征