摘要
本申请公开了一种面向粮食生产的跨模态表征学习与检索方法及系统,涉及农业信息化领域,该方法包括:基于图文双向引导融合网络对粮食生产过程中的图像文本对进行多粒度语义对齐,得到语义分割图像;基于全局语义引导对粮食生产过程中的视频文本对进行图像空间解耦与时序增强,得到结构化语义图像特征;构建文本特征库及图像特征库;根据待检索数据的模态确定传输计划矩阵,基于传输计划矩阵生成待检索数据的查询特征,根据待检索数据的查询特征、文本特征库及图像特征库,采用相似度度量的方法输出文本查询结果或图像查询结果。本申请能够实现跨模态特征的深度融合,提升图像与文本语义匹配的准确性,实现图像与文本之间的快速、精准匹配与检索。
技术关键词
图像
上下文特征
检索方法
文本
视觉注意力机制
查询特征
语义向量
特征提取模块
图文
融合特征
多尺度
空间金字塔池
词语
通道注意力机制
空间特征提取
视频
长短期记忆网络
时序
系统为您推荐了相关专利信息
温度提取方法
图像处理算法
深度学习算法
训练卷积神经网络
神经网络对图像
生成对抗网络
图像生成方法
多阶段
方位角
属性散射中心模型