摘要
本发明公开了一种基于细粒度对齐与重排序的图文检索方法及系统,包括:输入待检索的图像和文本,利用预训练模型CLIP强大的特征提取能力对输入图文分别编码;利用跨模态交互模块自适应地将文本表示对齐到相关图像区域;计算图像与文本之间的相似度得分,获得初步匹配结果;通过重排序机制对初始相似度矩阵进行反向检索;结合三种损失函数训练检索模型,并且引入单模态预训练教师模型离线提取的知识作为软标签监督信号,优化相似度学习过程;用KL散度来衡量模型输出的概率分布与教师模型提供的软标签之间的差异,提升图文之间语义对齐的能力。本发明通过联合使用三种损失模型既有效对齐图文间的语义关系,又保证了模态内部的结构清晰与一致性。
技术关键词
图文检索方法
语义
跨模态
预训练模型
特征提取能力
残差模块
教师
注意力机制
图像特征向量
文本编码器
矩阵
图像嵌入
检索系统
标签
视觉特征
系统为您推荐了相关专利信息
贝叶斯神经网络
多任务分类
贝叶斯网络模型
平台
图像分类模型
图像分割模型
语义
图像分割方法
热力图
采样模块
交易风险监控方法
语法结构
数据
依存句法分析
文本
语义向量
编码器模块
混合特征提取
单元测试方法
索引