一种基于深度学习的跨模态图像文本检索方法

正文

推荐专利

申请号：CN202411675311

申请日期：2024-11-21

公开号：CN119311911B

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开了一种基于深度学习的跨模态图像文本检索方法，提出了一种新颖的跨模态特征提取与对齐框架，通过学习图像和文本在共同特征空间中的语义表示来进行高效的跨模态检索,该框架包含多个模块，在特征提取阶段，文本编码采用BERT Tokenizer和BERT Embedding，图像特征提取结合Faster R‑CNN与ResNet‑101模型，确保图像与文本特征的维度一致性。在特征对齐阶段，通过I2T Attention和T2I Attention模块实现图像与文本特征的细粒度语义对齐，显著提升跨模态匹配的精度在相关性评分阶段，通过计算图像特征与文本特征之间的相似度得分，生成相关性评分矩阵，进一步通过归一化与注意力重新分配优化特征对齐效果。在优化阶段，本系统创新性地采用共享语义与排序损失策略，并集成OpenCLIP模型框架，通过对比学习从未标注的大规模数据中高效挖掘图像与文本的语义关系，显现出强大的迁移学习能力和推断精度。

技术关键词

文本检索方法 BERT模型图像特征提取自然语言文本图像共享特征阶段语义特征特征提取模块注意力文本特征向量相关性度量方法排序损失跨模态卷积特征编码视觉特征

系统为您推荐了相关专利信息

一种基于区分式卷积字典网络的稀疏角度CT伪影去除方法

稀疏角度CT图像图像特征提取字典计算机断层成像技术图像复原方法

超声与细胞学图像联合分析的甲状腺肿瘤诊断方法和系统

肿瘤诊断方法患者图像特征向量提取统计特征序列

设备缺陷检测模型训练方法、设备缺陷检测方法及其装置

设备缺陷检测三维点云数据投影特征缺陷预测模型训练方法

基于卷积神经网络辅助斑马鱼成像的丹参-红花药对抗冠心病血瘀证的功效成分筛选方法

筛选方法斑马鱼心脏红花药羟基红花黄色素

一种智能广告投放系统及方法

智能广告投放系统广告模板展示模板图像处理单元感兴趣

一种基于深度学习的跨模态图像文本检索方法

站点导航

APP 下载