一种基于深度学习的无监督半配对跨模态检索方法及系统

正文

推荐专利

申请号：CN202511057270

申请日期：2025-07-30

公开号：CN120973938A

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种基于深度学习的无监督半配对跨模态检索方法及系统，涉及人工智能领域，用于解决标注数据依赖、非对称语义关联及高维存储效率问题。本发明结合双分支视觉编码器和动态提示文本编码器，利用门控交叉注意力实现视觉‑文本特征动态加权，抑制模态冗余干扰。通过低频语义引导生成增强策略，提升长尾词覆盖率；构建双阶段量化分层索引，采用粗粒度聚类与细粒度乘积量化压缩特征存储，支持百万级数据实时检索。退化感知增量维护机制通过KL散度阈值监测数据分布偏移，触发索引重建以保持长期更新精度。该方法突破传统强配对模型限制，实现跨模态敏感内容秒级定位，有效解决非对称语义对齐，提升检索效率。

技术关键词

跨模态检索方法跨模态数据文本编码器交叉注意力机制视觉特征索引算法多尺度池化词频统计语义 Sigmoid函数分层动态分支阶段多层感知器置信度阈值标记特征

系统为您推荐了相关专利信息

基于多尺度特征融合的东南亚语言场景文本图像识别方法

文本图像识别多尺度特征融合图像视觉特征编码特征 Canny边缘检测器

一种基于AI的多模态数据处理方法

物品标签数据处理方法多语言翻译模型语义向量图文

一种基于特征集合可信度推断的小样本图像分类方法

图像分类方法注意力机制语义特征样本多尺度特征

一种基于知识增强的电网拓扑图结构样本构建方法及装置

样本构建电网拓扑图大数据处理技术跨模态数据输入端

基于多模态小语言模型的远程医学视觉问答模型搭建方法

视觉问答模型视觉特征多模态文本语言模型技术

一种基于深度学习的无监督半配对跨模态检索方法及系统

站点导航

APP 下载