一种基于深度学习的跨模态图像文本检索方法

AITNT
正文
推荐专利
一种基于深度学习的跨模态图像文本检索方法
申请号:CN202411675311
申请日期:2024-11-21
公开号:CN119311911B
公开日期:2025-06-06
类型:发明专利
摘要
本发明公开了一种基于深度学习的跨模态图像文本检索方法,提出了一种新颖的跨模态特征提取与对齐框架,通过学习图像和文本在共同特征空间中的语义表示来进行高效的跨模态检索,该框架包含多个模块,在特征提取阶段,文本编码采用BERT Tokenizer和BERT Embedding,图像特征提取结合Faster R‑CNN与ResNet‑101模型,确保图像与文本特征的维度一致性。在特征对齐阶段,通过I2T Attention和T2I Attention模块实现图像与文本特征的细粒度语义对齐,显著提升跨模态匹配的精度在相关性评分阶段,通过计算图像特征与文本特征之间的相似度得分,生成相关性评分矩阵,进一步通过归一化与注意力重新分配优化特征对齐效果。在优化阶段,本系统创新性地采用共享语义与排序损失策略,并集成OpenCLIP模型框架,通过对比学习从未标注的大规模数据中高效挖掘图像与文本的语义关系,显现出强大的迁移学习能力和推断精度。
技术关键词
文本检索方法 BERT模型 图像特征提取 自然语言文本 图像共享特征 阶段 语义特征 特征提取模块 注意力 文本特征向量 相关性度量方法 排序损失 跨模态 卷积特征 编码 视觉特征
系统为您推荐了相关专利信息
1
一种基于区分式卷积字典网络的稀疏角度CT伪影去除方法
稀疏角度CT图像 图像特征提取 字典 计算机断层成像技术 图像复原方法
2
超声与细胞学图像联合分析的甲状腺肿瘤诊断方法和系统
肿瘤诊断方法 患者 图像特征向量提取 统计特征 序列
3
设备缺陷检测模型训练方法、设备缺陷检测方法及其装置
设备缺陷检测 三维点云数据 投影特征 缺陷预测 模型训练方法
4
基于卷积神经网络辅助斑马鱼成像的丹参-红花药对抗冠心病血瘀证的功效成分筛选方法
筛选方法 斑马鱼 心脏 红花药 羟基红花黄色素
5
一种智能广告投放系统及方法
智能广告投放系统 广告模板 展示模板 图像处理单元 感兴趣
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号