摘要
本发明公开一种基于关系感知矫正注意力网络的视听匹配方法,利用关系感知模态间矫正注意力与自适应模态内矫正注意力共同探索不同模态语义特征之间的内在关联。关系感知模态间的矫正注意力机制通过关系感知网络获得的相关性信息,引导不同模态的特征进行目标明确的交互,以识别潜在的语义联系。鉴于不同模态间可能存在显著的信息差异,自适应模态内矫正注意力作为一个辅助机制,能够独立并有效地处理这些特征,进而深入挖掘各模态的特征表示。此外,这两种注意力模块均集成了自适应注意力矫正单元,以优化注意力分配,增强特征表示的同时减少干扰信息对网络的影响。通过强化正负样本之间的对比,相对距离拉伸度量损失有助于改善视听特征的嵌入表征。本发明在多个公共基准数据集上进行测试,覆盖多种场景,并展现出良好的性能表现。
技术关键词
矫正
视听
人脸图像特征
关系
音频
表达式
网络
矩阵
跨模态
注意力机制
样本
语义
度量
超参数
多层感知器
身份
组合方法
系统为您推荐了相关专利信息
广告营销系统
社交媒体平台
广告投放策略
关系网络图
PageRank算法
性能评估方法
深度预测模型
结构混凝土
试件
模型预测值
脓毒症疾病
药物筛选方法
单体
基因测序数据
下游靶基因
电网基建项目
长短记忆神经网络
问答模型
计算机程序代码
关系
性能优化方法
参数
路径结构
性能预测模型
计算机程序产品