摘要
本申请提供了一种基于音视频对齐的自监督学习方法及系统,方法包括以下步骤:获取音视频偏移数据集;基于原始音频信号和视频信号,获取相似度矩阵,根据相似度矩阵中的偏移量对视频特征进行反向平移对齐,获取对齐后的音视频;对对齐的音视频进行编码,获取音频和视频的多模态特征;解码多模态特征,用于下游语音相关任务。本申请通过构建音视频相似度矩阵、自动计算时序偏移量并进行特征对齐的自监督学习方法,提高音视频存在偏移的复杂场景下语音相关任务的鲁棒性。
技术关键词
对齐模块
监督学习方法
多模态特征
音视频解码
矩阵
视频特征向量
解码器
跨模态
语音
音频编码器
数据
视频编码器
超参数
视频流