摘要
本发明公开了一种基于深度学习的跨模态图像文本检索方法,提出了一种新颖的跨模态特征提取与对齐框架,通过学习图像和文本在共同特征空间中的语义表示来进行高效的跨模态检索,该框架包含多个模块,在特征提取阶段,文本编码采用BERT Tokenizer和BERT Embedding,图像特征提取结合Faster R‑CNN与ResNet‑101模型,确保图像与文本特征的维度一致性。在特征对齐阶段,通过I2T Attention和T2I Attention模块实现图像与文本特征的细粒度语义对齐,显著提升跨模态匹配的精度在相关性评分阶段,通过计算图像特征与文本特征之间的相似度得分,生成相关性评分矩阵,进一步通过归一化与注意力重新分配优化特征对齐效果。在优化阶段,本系统创新性地采用共享语义与排序损失策略,并集成OpenCLIP模型框架,通过对比学习从未标注的大规模数据中高效挖掘图像与文本的语义关系,显现出强大的迁移学习能力和推断精度。
技术关键词
文本检索方法
BERT模型
图像特征提取
自然语言文本
图像共享特征
阶段
语义特征
特征提取模块
注意力
文本特征向量
相关性度量方法
排序损失
跨模态
卷积特征
编码
视觉特征
系统为您推荐了相关专利信息
稀疏角度CT图像
图像特征提取
字典
计算机断层成像技术
图像复原方法
肿瘤诊断方法
患者
图像特征向量提取
统计特征
序列
设备缺陷检测
三维点云数据
投影特征
缺陷预测
模型训练方法
智能广告投放系统
广告模板
展示模板
图像处理单元
感兴趣