摘要
本发明公开了无监督混合音频跨模态分离方法、系统、设备及存储介质,方法包括:视频内声源物体检测,采用目标检测算法提取视频中的目标物体和视觉特征;音视频数据预处理;跨模态音视语义对齐学习,包括音频视频语义一致性学习和音频视觉交叉注意力学习;无监督混合音频初步分离,获取若干分离后的音频信号;独立对抗学习,构建信号库,设置损失函数来拉近音频解码器生成信号的联合分布与随机抽选信号库中的样本之间联合分布的差异,以训练U‑Net音频解码器生成相互独立的分离音频信号;视觉指导的无监督音频分离。本发明方法基于独立对抗学习,兼顾混合音频分离后产生的单一音源的独立性和音源之间的呼应关联性,实现无监督混合音频分离。
技术关键词
音频解码器
无监督
跨模态
视觉特征
语义
注意力
物体检测
融合特征
音视频
音频特征
样本
时域音频信号
生成音频信号
短时傅里叶变换
模块
系统为您推荐了相关专利信息
超分辨率重建图像
超分辨率图像重建方法
超分辨率模型
噪声图像
高层语义特征
电能表外观
原始图像数据
缺陷检测方法
视觉特征
多层卷积神经网络
序列异常检测方法
双向长短期记忆网络
词语
半监督异常检测方法
框架
特征提取单元
多模态
模型预训练
数据编码
模态特征