摘要
本发明涉及图文检索、跨模态学习与知识蒸馏技术领域,具体为基于软标签蒸馏与空间提示的双阶段图文检索方法及系统。包括:获取待处理的图文对,并初始化图文检索模型;在第一训练阶段,生成软标签;基于软标签,对初始化的图文检索模型进行初步训练,得到初步训练模型;在第二训练阶段,识别图像块的对象标签;基于对象标签与图像块的位置信息,生成空间文本提示;结合空间文本提示与图文对的原始文本,生成增强文本输入;基于增强文本输入与软标签,对初步训练模型进行精炼训练,输出最终的图文检索模型。本发明解决了现有技术因硬标签导致的模态对齐不足问题,显著提升了检索的宏观准确性。
技术关键词
图文检索方法
标签
文本
阶段
对象
教师
关键词
知识蒸馏技术
跨模态学习
检索系统
数据获取模块
图像分割
识别模块
图像块
批量
参数
系统为您推荐了相关专利信息
标签
语义分割模型
稀疏编码器
解码器结构
深度映射
文件生成方法
文本
数据
文件生成装置
访问权限信息