摘要
本发明公开了一种基于聚类原型指导的聚合邻域嵌入图像文本匹配方法,涉及计算机视觉与自然语言处理技术领域,本发明提出了全粒度原型指导邻域嵌入框架。该框架通过聚类原型动量对比学习动态地学习统一表征空间,缓解软正样本问题;引入全局与局部特征联合提取和自适应聚合网络,提升全局信息理解能力;构建模态内和模态间关联度矩阵,深入挖掘样本实例的邻域关系;并采用动量对比学习技术,扩充负样本容量,提高特征判别能力。实验结果表明,FPNE在Flickr30K和MS‑COCO数据集上的表现优于现有最先进方法,显著提升了图文匹配的精度和效率,展现出较强的鲁棒性和广泛适用性。
技术关键词
文本匹配方法
原型
邻域
语义
聚类
样本
跨模态
图像嵌入
矩阵
存储库
视觉
视角
文本编码器
注意力
词特征
节点特征
网络
系统为您推荐了相关专利信息
视觉SLAM方法
动态场景
关键帧
静态特征
图像
传感器融合
深度学习分类
深度图技术
占据栅格地图
相机标定参数
外观缺陷检测方法
烟支外观
缺陷烟支
注意力机制
图像
信息提取方法
浮筏养殖
深度学习网络
解码器
线性变换矩阵