摘要
本发明公开了一种基于深度学习的无监督半配对跨模态检索方法及系统,涉及人工智能领域,用于解决标注数据依赖、非对称语义关联及高维存储效率问题。本发明结合双分支视觉编码器和动态提示文本编码器,利用门控交叉注意力实现视觉‑文本特征动态加权,抑制模态冗余干扰。通过低频语义引导生成增强策略,提升长尾词覆盖率;构建双阶段量化分层索引,采用粗粒度聚类与细粒度乘积量化压缩特征存储,支持百万级数据实时检索。退化感知增量维护机制通过KL散度阈值监测数据分布偏移,触发索引重建以保持长期更新精度。该方法突破传统强配对模型限制,实现跨模态敏感内容秒级定位,有效解决非对称语义对齐,提升检索效率。
技术关键词
跨模态检索方法
跨模态数据
文本编码器
交叉注意力机制
视觉特征
索引算法
多尺度池化
词频统计
语义
Sigmoid函数
分层
动态
分支
阶段
多层感知器
置信度阈值
标记特征
系统为您推荐了相关专利信息
文本图像识别
多尺度特征融合
图像视觉特征
编码特征
Canny边缘检测器
物品标签
数据处理方法
多语言翻译模型
语义向量
图文
图像分类方法
注意力机制
语义特征
样本
多尺度特征
样本
构建电网拓扑图
大数据处理技术
跨模态数据
输入端
视觉问答模型
视觉特征
多模态
文本
语言模型技术