基于音视频对齐的自监督学习方法及系统

正文

推荐专利

基于音视频对齐的自监督学习方法及系统

申请号：CN202510561359

申请日期：2025-04-30

公开号：CN120472937A

公开日期：2025-08-12

类型：发明专利

摘要

本申请提供了一种基于音视频对齐的自监督学习方法及系统，方法包括以下步骤：获取音视频偏移数据集；基于原始音频信号和视频信号，获取相似度矩阵，根据相似度矩阵中的偏移量对视频特征进行反向平移对齐，获取对齐后的音视频；对对齐的音视频进行编码，获取音频和视频的多模态特征；解码多模态特征，用于下游语音相关任务。本申请通过构建音视频相似度矩阵、自动计算时序偏移量并进行特征对齐的自监督学习方法，提高音视频存在偏移的复杂场景下语音相关任务的鲁棒性。

技术关键词

对齐模块监督学习方法多模态特征音视频解码矩阵视频特征向量解码器跨模态语音音频编码器数据视频编码器超参数视频流

基于音视频对齐的自监督学习方法及系统

站点导航

APP 下载