摘要
本发明公开了一种基于视觉语义双向引导的零样本食品图像检测方法,属于图像数据处理及产生技术领域,其以基于Transformer的DETR为检测框架,并融合食品语义增强网络和跨模态双向引导模块。首先,将图像输入到图像骨干网络分支以提取视觉特征、将类别标签输入到食品语义增强网络分支以提取语义特征,然后,将得到的两种特征送入跨模态双向引导融合模块,该模块包括双向引导编码器、双向引导查询向量和双向引导解码器,通过编码和解码的过程对视觉和语义特征进行对齐融合,最后,在全连接层中完成零样本食品图像检测的回归和分类任务。本发明能够在检测过程中捕获细致的食品属性和视觉特征,实现视觉语义模态的有效互动,从而提升对未见食品类别的检测精度。
技术关键词
语义特征
视觉特征
图像检测方法
交叉注意力机制
样本
标签
嵌入特征
分支
损失函数优化
图像数据处理
解码器
训练集
广义
食品类别
网络
匈牙利算法
系统为您推荐了相关专利信息
频率转换电路
温度补偿方法
电流
线性回归方程
高精度温度补偿
分类识别模型
噪声样本
噪声识别
图像识别方法
数据