摘要
本发明涉及一种基于文本语义引导和自适应特征聚合的图文检索方法,属于计算机视觉、图像处理、自然语言处理等相关领域。该方法通过识别图像中与文本描述最为相关的图像块,采用硬化分的方法降低图像块的冗余度,突出关键的细粒度特征并过滤不必要的冗余信息,使图像特征表示更加紧凑,实现有效的特征净化。其次,基于净化后的图像特征,在图像文本匹配前引入自适应聚合策略,在单模态特征的每个维度上选择最具代表性特征进行聚合,实现更高效准确的图文检索。本发明通过优化图像特征的冗余过滤和跨模态对齐,有效解决了当前传统检索方法中不同模态之间的语义鸿沟以及准确率低的问题,更好地满足用户对跨模态图文检索的实际需求。
技术关键词
图文检索方法
文本
图像块特征
细粒度特征
排序损失
语义
特征值
三元组
特征方法
多层感知机
计算机视觉
模态特征
比率
注意力机制
自然语言