摘要
本发明公开一种基于关系感知矫正注意力网络的视听匹配方法,利用关系感知模态间矫正注意力与自适应模态内矫正注意力共同探索不同模态语义特征之间的内在关联。关系感知模态间的矫正注意力机制通过关系感知网络获得的相关性信息,引导不同模态的特征进行目标明确的交互,以识别潜在的语义联系。鉴于不同模态间可能存在显著的信息差异,自适应模态内矫正注意力作为一个辅助机制,能够独立并有效地处理这些特征,进而深入挖掘各模态的特征表示。此外,这两种注意力模块均集成了自适应注意力矫正单元,以优化注意力分配,增强特征表示的同时减少干扰信息对网络的影响。通过强化正负样本之间的对比,相对距离拉伸度量损失有助于改善视听特征的嵌入表征。本发明在多个公共基准数据集上进行测试,覆盖多种场景,并展现出良好的性能表现。
技术关键词
矫正
视听
人脸图像特征
关系
音频
表达式
网络
矩阵
跨模态
注意力机制
样本
语义
度量
超参数
多层感知器
身份
组合方法
系统为您推荐了相关专利信息
高效识别方法
麦克风阵列
音频
信号识别模型
滤波器
表格解析方法
视觉检测算法
非结构化文档
光学字符识别技术
数据