无监督混合音频跨模态分离方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202411558075

申请日期：2024-11-04

公开号：CN119541523B

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了无监督混合音频跨模态分离方法、系统、设备及存储介质，方法包括：视频内声源物体检测，采用目标检测算法提取视频中的目标物体和视觉特征；音视频数据预处理；跨模态音视语义对齐学习，包括音频视频语义一致性学习和音频视觉交叉注意力学习；无监督混合音频初步分离，获取若干分离后的音频信号；独立对抗学习，构建信号库，设置损失函数来拉近音频解码器生成信号的联合分布与随机抽选信号库中的样本之间联合分布的差异，以训练U‑Net音频解码器生成相互独立的分离音频信号；视觉指导的无监督音频分离。本发明方法基于独立对抗学习，兼顾混合音频分离后产生的单一音源的独立性和音源之间的呼应关联性，实现无监督混合音频分离。

技术关键词

音频解码器无监督跨模态视觉特征语义注意力物体检测融合特征音视频音频特征样本时域音频信号生成音频信号短时傅里叶变换模块

系统为您推荐了相关专利信息

一种视差指导的双目超分辨率图像重建方法及系统

超分辨率重建图像超分辨率图像重建方法超分辨率模型噪声图像高层语义特征

基于道路约束多源网络地理编码平台的地理坐标优化方法

编码平台线段端点直线分词

一种基于神经网络的电能表外观缺陷检测方法及系统

电能表外观原始图像数据缺陷检测方法视觉特征多层卷积神经网络

一种基于分层语义的日志序列异常检测方法

序列异常检测方法双向长短期记忆网络词语半监督异常检测方法框架

一种类脑多模态模型端到端预训练装置及方法

特征提取单元多模态模型预训练数据编码模态特征

无监督混合音频跨模态分离方法、系统、设备及存储介质

站点导航

APP 下载