一种基于深度学习的无监督半配对跨模态检索方法及系统

AITNT
正文
推荐专利
一种基于深度学习的无监督半配对跨模态检索方法及系统
申请号:CN202511057270
申请日期:2025-07-30
公开号:CN120973938A
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开了一种基于深度学习的无监督半配对跨模态检索方法及系统,涉及人工智能领域,用于解决标注数据依赖、非对称语义关联及高维存储效率问题。本发明结合双分支视觉编码器和动态提示文本编码器,利用门控交叉注意力实现视觉‑文本特征动态加权,抑制模态冗余干扰。通过低频语义引导生成增强策略,提升长尾词覆盖率;构建双阶段量化分层索引,采用粗粒度聚类与细粒度乘积量化压缩特征存储,支持百万级数据实时检索。退化感知增量维护机制通过KL散度阈值监测数据分布偏移,触发索引重建以保持长期更新精度。该方法突破传统强配对模型限制,实现跨模态敏感内容秒级定位,有效解决非对称语义对齐,提升检索效率。
技术关键词
跨模态检索方法 跨模态数据 文本编码器 交叉注意力机制 视觉特征 索引算法 多尺度池化 词频统计 语义 Sigmoid函数 分层 动态 分支 阶段 多层感知器 置信度阈值 标记特征
系统为您推荐了相关专利信息
1
基于多尺度特征融合的东南亚语言场景文本图像识别方法
文本图像识别 多尺度特征融合 图像视觉特征 编码特征 Canny边缘检测器
2
一种基于AI的多模态数据处理方法
物品标签 数据处理方法 多语言翻译模型 语义向量 图文
3
一种基于特征集合可信度推断的小样本图像分类方法
图像分类方法 注意力机制 语义特征 样本 多尺度特征
4
一种基于知识增强的电网拓扑图结构样本构建方法及装置
样本 构建电网拓扑图 大数据处理技术 跨模态数据 输入端
5
基于多模态小语言模型的远程医学视觉问答模型搭建方法
视觉问答模型 视觉特征 多模态 文本 语言模型技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号