摘要
本发明公开了一种基于置信度校正与一致性学习的噪声跨模态检索方法,属于多媒体检索的跨模态检索技术领域。首先在预热阶段预热模型和模型,利用损失优化初始匹配关系。在正式训练阶段,采用协同教学范式训练双模型,通过双组分高斯混合模型对正样本对损失分布建模,根据阈值将其划分为干净子集、不确定子集和噪声子集。针对不同子集设计不同置信度校正策略,进一步结合预训练视觉模型提取的图像单模态特征、预训练语言模型提取的文本单模态特征计算跨模态相似度,对负样本对进行判别。最终联合正样本对损失和负样本对损失,形成噪声鲁棒性增强的跨模态对齐框架。本发明有效提升噪声场景下的检索准确性,在多媒体检索领域具有实用价值。
技术关键词
模态特征
样本
跨模态检索方法
预训练语言模型
损失函数优化
文本编码器
图像编码器
噪声图像
超参数
图像匹配
校正
高斯混合模型
定义
概率密度函数
系统为您推荐了相关专利信息
时空预测方法
融合时空特征
时间递归神经网络
气象
边界特征
场景特征
车辆
自动驾驶系统
功耗控制方法
传感器
底层视觉特征
多模态
镜头
车辆行驶路径
语义特征
时间预测模型
血流
机器学习分类算法
频域特征
时域特征提取