基于音视频对齐的自监督学习方法及系统

AITNT
正文
推荐专利
基于音视频对齐的自监督学习方法及系统
申请号:CN202510561359
申请日期:2025-04-30
公开号:CN120472937A
公开日期:2025-08-12
类型:发明专利
摘要
本申请提供了一种基于音视频对齐的自监督学习方法及系统,方法包括以下步骤:获取音视频偏移数据集;基于原始音频信号和视频信号,获取相似度矩阵,根据相似度矩阵中的偏移量对视频特征进行反向平移对齐,获取对齐后的音视频;对对齐的音视频进行编码,获取音频和视频的多模态特征;解码多模态特征,用于下游语音相关任务。本申请通过构建音视频相似度矩阵、自动计算时序偏移量并进行特征对齐的自监督学习方法,提高音视频存在偏移的复杂场景下语音相关任务的鲁棒性。
技术关键词
对齐模块 监督学习方法 多模态特征 音视频解码 矩阵 视频特征向量 解码器 跨模态 语音 音频编码器 数据 视频编码器 超参数 视频流
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号