摘要
本发明公开了一种基于特征协同和自适应注意力调节的图文检索方法,首先生成图像的区域特征集合和句子对应的文本特征集合,并采用全局‑局部特征协同增强模块,生成增强后的区域特征集合;然后将文本特征集合中的单词特征与增强后的区域特征集合进行交互匹配,获得每个单词关注的综合图像特征向量,再进行相似度计算,得到图像和句子之间的相似度分数;同时采用自适应跨模态注意力调节器模块更新每个单词关注的综合图像特征向量,并将基于最难负样本的三元组损失应用于目标函数的训练。本发明通过图像局部和全局特征的协同,实现对区域特征的增强,并优化图像区域和单词对的通道权重和注意力分布,进而提升图文之间的跨模态语义对齐能力。
技术关键词
图文检索方法
图像特征向量
注意力
跨模态
调节器
线性变换矩阵
残差网络
文本
三元组
模块
代表
通道
参数
样本
语义
算法模型
编码